ไฟล์ PDF ในผลการค้นหาของ Google

วันพฤหัสบดีที่ 1 กันยายน 2011

ภารกิจของเราคือการจัดระเบียบข้อมูลในโลก และทำให้ข้อมูลนั้นมีประโยชน์และเข้าถึงได้จากทั่วโลก ขณะที่เรากำลังทำภารกิจที่ต้องใช้ความพยายามอย่างยิ่งยวดนี้ บางครั้งเราพบไฟล์ที่ไม่ใช่ HTML เช่น PDF, สเปรดชีต และงานนำเสนอ อัลกอริทึมของเราไม่ยอมให้ประเภทไฟล์ที่ต่างกันทำให้การทำงานช้าลง เราทำงานอย่างหนักเพื่อดึงเนื้อหาที่เกี่ยวข้องออกมาและจัดทำดัชนีเนื้อหาอย่างเหมาะสมสำหรับผลการค้นหา แต่จริงๆ แล้วเราจัดทำดัชนีสำหรับประเภทไฟล์เหล่านี้อย่างไรกันแน่ และจะใช้หลักเกณฑ์อะไรกับไฟล์เหล่านี้ที่มักจะแตกต่างกับ HTML มาตรฐานอย่างมาก และจะทำอย่างไรถ้าผู้ดูแลเว็บไม่ต้องการให้เราจัดทำดัชนี

Google เริ่มจัดทำดัชนีไฟล์ PDF เป็นครั้งแรกในปี 2001 และปัจจุบันมีไฟล์ PDF หลายร้อยล้านไฟล์ที่ได้รับการจัดทำดัชนี เราได้รวบรวมคำถามที่พบบ่อยที่สุดพร้อมคำตอบเกี่ยวกับการจัดทำดัชนี PDF มาไว้ที่นี่แล้ว

ถาม: Google จัดทำดัชนีไฟล์ PDF ได้ทุกประเภทไหม
ตอบ: โดยทั่วไปเราสามารถจัดทำดัชนีเนื้อหาที่เป็นข้อความ (เขียนเป็นภาษาใดก็ได้) จากไฟล์ PDF ที่ใช้การเข้ารหัสอักขระประเภทต่างๆ โดยที่ไฟล์นั้นต้องไม่มีการเข้ารหัสหรือป้องกันด้วยรหัสผ่าน หากมีการฝังข้อความเป็นรูปภาพ เราอาจประมวลผลรูปภาพด้วยอัลกอริทึม OCR เพื่อดึงข้อความออกมา กฎโดยทั่วไปก็คือ หากคุณคัดลอกและวางข้อความจากเอกสาร PDF ลงในเอกสารข้อความมาตรฐานได้ เราก็สามารถจัดทำดัชนีข้อความนั้นได้

ถาม: จะเกิดอะไรขึ้นกับรูปภาพในไฟล์ PDF
ตอบ: ในปัจจุบันยังไม่มีการจัดทำดัชนีรูปภาพที่อยู่ในไฟล์ PDF หากต้องการให้เราจัดทำดัชนีรูปภาพ คุณควรสร้างหน้า HTML สำหรับรูปภาพเหล่านั้น โปรดอ่านแนวทางปฏิบัติแนะนำของ Google รูปภาพในการเพิ่มโอกาสที่เราจะแสดงรูปภาพของคุณในผลการค้นหา

ถาม: คุณจัดการกับลิงก์ในเอกสาร PDF อย่างไร
ตอบ: โดยทั่วไป เราจะจัดการกับลิงก์ในไฟล์ PDF เหมือนที่ทำกับลิงก์ใน HTML กล่าวคือ ลิงก์สามารถส่งเพจแรงก์และสัญญาณการจัดทำดัชนีอื่นๆ และเราอาจติดตามลิงก์ดังกล่าวหลังจากรวบรวมข้อมูลไฟล์ PDF แล้ว ในปัจจุบันยังใช้ลิงก์ nofollow ภายในเอกสาร PDF ไม่ได้

ถาม: ฉันจะป้องกันไม่ให้ไฟล์ PDF ปรากฏในผลการค้นหาได้อย่างไร หรือหากไฟล์ปรากฏในผลการค้นหาแล้ว ฉันจะนำไฟล์ออกได้อย่างไร
ตอบ: วิธีที่ง่ายที่สุดในการป้องกันไม่ให้เอกสาร PDF ปรากฏในผลการค้นหาคือการเพิ่ม X-Robots-Tag: noindex ในส่วนหัวของ HTTP ที่ใช้แสดงไฟล์ หากมีการจัดทำดัชนีไปแล้ว เอกสารจะไม่ปรากฏอีกเมื่อเวลาผ่านไปหากคุณใช้ X-Robot-Tag ที่มีกฎ noindex หากต้องการนำออกให้เร็วขึ้น คุณสามารถใช้เครื่องมือนำ URL ออกใน Google เครื่องมือของผู้ดูแลเว็บ

ถาม: ไฟล์ PDF จะอยู่อันดับสูงในผลการค้นหาได้ไหม
ตอบ: ได้แน่นอน โดยทั่วไปไฟล์ PDF จะได้รับการจัดอันดับคล้ายกับหน้าเว็บอื่นๆ เช่น ขณะที่ลงโพสต์นี้ เมื่อค้นหาการตรวจสอบตลาดสินเชื่อที่อยู่อาศัย แบบฟอร์มภาษีปี 2011 หรือรายงานจากผู้เชี่ยวชาญเกี่ยวกับยาพาราเซตามอล เอกสารไฟล์ PDF ทั้งหมดที่ปรากฏขึ้นมาในผลการค้นหาของเราก็อยู่ในอันดับสูง นั่นเป็นเพราะเนื้อหาที่ดีและวิธีการฝังและลิงก์ไฟล์จากหน้าเว็บอื่น

ถาม: หากหน้าเว็บมีทั้งในแบบ HTML และ PDF จะถือว่าเป็นเนื้อหาที่ซ้ำกันไหม
ตอบ: หากเป็นไปได้ เราขอแนะนำให้คุณแสดงเนื้อหาเพียง 1 แบบ หากทำไม่ได้ ให้ตรวจสอบว่าได้ระบุเวอร์ชันที่ต้องการเอาไว้แล้ว เช่น ใส่ URL ที่ต้องการในแผนผังเว็บไซต์หรือระบุเวอร์ชัน Canonical ใน HTML หรือในส่วนหัว HTTP ของไฟล์ PDF โปรดอ่านคำแนะนำเพิ่มเติมจากบทความในศูนย์ช่วยเหลือเรื่องการกำหนดหน้า Canonical

ถาม: ฉันจะทำอย่างไรได้บ้างเพื่อดันให้ชื่อเรื่องของเอกสาร PDF ปรากฏในผลการค้นหา
ตอบ: เราใช้องค์ประกอบหลัก 2 อย่างในการพิจารณาชื่อที่แสดง ได้แก่ ข้อมูลเมตาของชื่อภายในไฟล์ และ anchor text ของลิงก์ที่ชี้ไปยังไฟล์ PDF หากต้องการให้สัญญาณที่ดีแก่อัลกอริทึมของเราถึงชื่อที่เหมาะสมสำหรับใช้ เราขอแนะนำให้อัปเดตทั้ง 2 องค์ประกอบ

ดูข้อมูลเพิ่มเติมได้จากวิดีโอของ Matt Cutt เกี่ยวกับการเพิ่มประสิทธิภาพการค้นหาสำหรับไฟล์ PDF และไปที่ศูนย์ช่วยเหลือเพื่อดูข้อมูลเกี่ยวกับประเภทเนื้อหาที่เราจัดทำดัชนีได้ หากมีความคิดเห็นหรือคำแนะนำ โปรดแจ้งให้เราทราบในฟอรัมความช่วยเหลือสำหรับผู้ดูแลเว็บ

โพสต์โดย Gary Illyes นักวิเคราะห์เทรนด์สำหรับผู้ดูแลเว็บ