วันจันทร์ที่ 16 มกราคม 2017
เมื่อเร็วๆ นี้เราได้ยินนิยามจํานวนหนึ่งสำหรับคำว่า "Crawl Budget" แต่ก็ยังไม่พบว่ามีคำศัพท์ใดที่ใช้กันภายนอก Google จะอธิบายคำนี้ได้อย่างครอบคลุม ในโพสต์นี้เราจะอธิบายนิยามที่เรามีและความหมายของนิยามนั้นสำหรับ Googlebot
ก่อนอื่น เราขอเน้นย้ำว่า Crawl Budget ในการรวบรวมข้อมูลตามที่อธิบายไว้ด้านล่างไม่ใช่สิ่งที่ผู้เผยแพร่ส่วนใหญ่ต้องกังวล หากหน้าเว็บใหม่มีแนวโน้มที่จะได้รับการรวบรวมข้อมูลในวันเดียวกับที่เผยแพร่ Crawl Budget ก็ไม่ใช่สิ่งที่ผู้ดูแลเว็บต้องให้ความสนใจ ในทํานองเดียวกัน หากเว็บไซต์มี URL แค่ไม่กี่พันรายการ โดยส่วนใหญ่แล้วระบบจะรวบรวมข้อมูลเว็บไซต์ได้อย่างมีประสิทธิภาพ
การให้ความสําคัญลำดับต้นแก่สิ่งที่จะรวบรวมข้อมูล เวลา และทรัพยากรที่เซิร์ฟเวอร์ซึ่งโฮสต์เว็บไซต์จะจัดสรรให้แก่การรวบรวมข้อมูล เป็นสิ่งสำคัญยิ่งกว่าสำหรับเว็บไซต์ขนาดใหญ่ หรือเว็บไซต์ที่สร้างหน้าเว็บโดยอัตโนมัติตามพารามิเตอร์ของ URL เป็นต้น
ขีดจํากัดอัตราการรวบรวมข้อมูล
Googlebot ออกแบบมาให้เป็นพลเมืองที่ดีของเว็บ Googlebot มีหน้าที่สำคัญที่สุดเป็นการรวบรวมข้อมูล ในขณะเดียวกันก็คอยดูแลไม่ให้การรวบรวมข้อมูลนั้นทำให้ประสบการณ์การใช้งานของผู้เข้าชมเว็บไซต์แย่ลง เราเรียกสิ่งนี้ว่า "ขีดจํากัดอัตราการรวบรวมข้อมูล" ซึ่งจะจํากัดอัตราการดึงข้อมูลสูงสุดสําหรับเว็บไซต์หนึ่งๆ
พูดง่ายๆ ว่าขีดจำกัดนี้คือจํานวนการเชื่อมต่อแบบขนานซึ่งเกิดขึ้นพร้อมกันที่ Googlebot อาจใช้ได้ในการรวบรวมข้อมูลเว็บไซต์ ซึ่งรวมถึงเวลาที่ต้องใช้รอระหว่างการดึงข้อมูลด้วย อัตราการรวบรวมข้อมูลอาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้
- ประสิทธิภาพการรวบรวมข้อมูล: ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองได้รวดเร็วมากในระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot จะใช้การเชื่อมต่อได้มากขึ้นเพื่อรวบรวมข้อมูล หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลง
- ขีดจํากัดที่กําหนดไว้ใน Search Console: เจ้าของเว็บไซต์สามารถขอให้ Googlebot รวบรวมข้อมูลในเว็บไซต์น้อยลงได้ โปรดทราบว่าการตั้งขีดจำกัดไว้สูงจะไม่เป็นการเพิ่มอัตราการรวบรวมข้อมูลตามไปด้วยโดยอัตโนมัติ
ความต้องการรวบรวมข้อมูล
หากไม่มีความต้องการจากการจัดทําดัชนี Googlebot ก็จะไม่ค่อยมีความเคลื่อนไหวมากนัก แม้ยังไม่ถึงขีดจํากัดอัตราการรวบรวมข้อมูลก็ตาม ปัจจัย 2 ประการที่มีบทบาทสำคัญในการกำหนดความต้องการ Crawl ได้แก่
- ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการรวบรวมข้อมูลบ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
- การไม่มีอัปเดต: ระบบพยายามป้องกันไม่ให้มี URL ที่ไม่มีการอัปเดตอยู่ในดัชนี
นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์ อาจทำให้เกิดความต้องการรวบรวมข้อมูลเพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง
เราจะกําหนด Crawl Budget ตามจํานวน URL ที่ Googlebot สามารถรวบรวมและต้องการรวบรวมข้อมูล โดยพิจารณาทั้งอัตราการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูล
ปัจจัยที่มีผลต่อ Crawl Budget
จากการวิเคราะห์ของเรา การมี URL ที่มีมูลค่าเพิ่มต่ำเป็นจํานวนมากอาจส่งผลเสียต่อการรวบรวมข้อมูลและจัดทําดัชนีของเว็บไซต์ เราพบว่า URL ที่มีมูลค่าเพิ่มต่ำเหล่านี้จะถูกจัดอยู่ในหมวดหมู่ตามลำดับความสําคัญต่อไปนี้
- การไปยังส่วนต่างๆ ตามข้อมูลประกอบและตัวระบุเซสชัน
- เนื้อหาที่ซ้ำกันในเว็บไซต์
- หน้าข้อผิดพลาดด้านโปรแกรม
- หน้าที่ถูกแฮ็ก
- พื้นที่งานขนาดใหญ่มากและพร็อกซี
- เนื้อหาที่เป็นสแปมและคุณภาพต่ำ
การใช้ทรัพยากรของเซิร์ฟเวอร์ไปอย่างสูญเปล่ากับหน้าเว็บเหล่านี้จะลดทอนกิจกรรมการรวบรวมข้อมูลจากหน้าที่มีคุณค่าอย่างแท้จริง ซึ่งอาจทําให้เกิดความล่าช้าอย่างมากในการค้นพบเนื้อหาดีๆ ในเว็บไซต์
คำถามยอดนิยม
การรวบรวมข้อมูลเป็นจุดแรกเข้าสำหรับเว็บไซต์ในการเข้าสู่ผลการค้นหาของ Google การรวบรวมข้อมูลอย่างมีประสิทธิภาพของเว็บไซต์จะช่วยในเรื่องจัดทําดัชนีของเว็บไซต์ใน Google Search ได้
ความเร็วเว็บไซต์มีผลต่อ Crawl Budget ของฉันไหม แล้วข้อผิดพลาดต่างๆ ล่ะ
การทําให้เว็บไซต์เร็วขึ้นจะช่วยปรับปรุงประสบการณ์ของผู้ใช้ไปพร้อมกับเพิ่มอัตราการรวบรวมข้อมูล Googlebot มองว่าเว็บไซต์ที่เร็วเป็นสัญญาณของเซิร์ฟเวอร์ที่มีประสิทธิภาพ จึงทำการ Crawl เนื้อหาได้มากขึ้นผ่านการเชื่อมต่อปริมาณเท่ากัน ในทางกลับกัน ก็มองว่าข้อผิดพลาด 5xx จำนวนมากหรือการเชื่อมต่อหมดเวลาเป็นสัญญาณของเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพ จึงทำการ Crawl ได้ช้าลง
เราขอแนะนำให้คอยตรวจสอบรายงานข้อผิดพลาดจากการ Crawl ใน Search Console และดูแลไม่ให้มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์จำนวนมาก
การรวบรวมข้อมูลเป็นปัจจัยที่ใช้ในการจัดอันดับไหม
อัตราการรวบรวมข้อมูลที่สูงขึ้นไม่ได้ทำให้อันดับในผลการค้นหาของ Search สูงขึ้นเสมอไป Google ใช้สัญญาณหลายร้อยอย่างในการจัดอันดับผลการค้นหา และแม้ว่าการ Crawl จะเป็นสิ่งจำเป็นที่ทำให้หน้าเว็บปรากฏในผลการค้นหา แต่ก็ไม่ได้เป็นสัญญาณการจัดอันดับ
URL ทางเลือกและเนื้อหาที่ฝังนับรวมอยู่ใน Crawl Budget ไหม
โดยทั่วไป URL ที่ Googlebot รวบรวมข้อมูลจะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์ ระบบอาจต้องทำการ Crawl URL ทางเลือกอย่างเช่น AMP หรือ hreflang ตลอดจนเนื้อหาที่ฝังอย่างเช่น CSS และ JavaScript รวมถึงการเรียกใช้ AJAX (ซึ่งก็คือ XHR) โดยทั้งหมดจะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์ ในทํานองเดียวกัน เชนการเปลี่ยนเส้นทางที่ยาวอาจส่งผลเสียต่อการ Crawl
ฉันควบคุม Googlebot ด้วยกฎ crawl-delay
ได้ไหม
Googlebot ไม่ประมวลผลกฎ crawl-delay
ของ robots.txt ที่ไม่เป็นไปตามมาตรฐาน
กฎ nofollow
มีผลต่อ Crawl Budget ไหม
แล้วแต่กรณี URL ใดๆ ที่ได้รับการรวบรวมข้อมูลจะมีผลต่อ Crawl Budget ดังนั้นแม้ว่าหน้าเว็บจะทำเครื่องหมาย URL ว่า nofollow
ระบบก็อาจยังรวบรวมข้อมูล URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow
URL ที่ฉันไม่อนุญาตผ่าน robots.txt จะส่งผลต่อ Crawl Budget หรือไม่
ไม่ URL ที่ไม่อนุญาตจะไม่ส่งผลต่อ Crawl Budget
สําหรับข้อมูลเกี่ยวกับวิธีเพิ่มประสิทธิภาพการรวบรวมข้อมูลเว็บไซต์ โปรดดูบล็อกโพสต์เกี่ยวกับการเพิ่มประสิทธิภาพการรวบรวมข้อมูลจากปี 2009 ที่ยังคงมีผลใช้ได้อยู่ หากมีข้อสงสัย โปรดถามในฟอรัม