แก้ปัญหาข้อผิดพลาดในการ Crawl ของ Google Search

ขั้นตอนสำคัญในการแก้ปัญหาและแก้ไขปัญหาการ Crawl ของ Google Search สำหรับเว็บไซต์ของคุณมีดังนี้

  1. ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
  2. ดูว่ามีหน้าที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่
  3. ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการ Crawl เร็วกว่าที่เป็นอยู่หรือไม่
  4. ปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
  5. จัดการการ Crawl เว็บไซต์ที่มากเกินไป

ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่

การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป โดย Google จะกำหนดอัตราการ Crawl ที่ดีที่สุดตามความต้องการ Crawl ตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google ทำการ Crawl เว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ

การวิเคราะห์

ใช้รายงานสถิติการ Crawl เพื่อดูประวัติการ Crawl ของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์

นอกจากนี้ คุณยังใช้เครื่องมือตรวจสอบ URL เพื่อทดสอบ URL บางรายการในเว็บไซต์ได้อีกด้วย หากเครื่องมือแสดงคําเตือนโหลดของโฮสต์มากเกินไป หมายความว่า Googlebot ทำการ Crawl URL จากเว็บไซต์ของคุณที่ตรวจพบไม่ได้ทั้งหมด

การแก้ไข

  • อ่านเอกสารประกอบรายงานสถิติการ Crawl เพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
  • บล็อกหน้าเว็บไม่ให้ได้รับการ Crawl หากไม่ต้องการให้มีการ Crawl (ดูจัดการรายการ URL)
  • เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์)
  • เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google ทำการ Crawl เว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการ Crawl หรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการ Crawl เพื่อดูว่าอัตราการ Crawl ของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการ Crawl เพิ่มขึ้นในช่วงเวลานั้นหรือไม่

ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่

Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)

การวิเคราะห์

Search Console ไม่ได้ให้ประวัติการ Crawl ของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot ทำการ Crawl URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่ทำการ Crawl แล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน

อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการ Crawl URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว

การแก้ไข

หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการ Crawl ภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือ Crawl Budget หมดแล้ว

  1. บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
  2. ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
  3. ตรวจสอบลําดับความสําคัญในการ Crawl (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
  4. ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการ Crawl หากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอทำการ Crawl

โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการ Crawl แล้วก็ตาม

ดูว่าการอัปเดตได้รับการ Crawl อย่างรวดเร็วเพียงพอหรือไม่

หากเราไม่ได้ทำการ Crawl หน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า

โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ

การวิเคราะห์

ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ เมื่อใด

หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดต

การแก้ไข

สิ่งที่ควรทำ

  • ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว
  • ใช้แท็ก <lastmod> ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด
  • ใช้โครงสร้าง URL ที่สามารถ Crawl ได้เพื่อช่วยให้ Google พบหน้าเว็บ
  • ระบุลิงก์ <a> ที่ทำการ Crawl ได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ
  • หากเว็บไซต์ใช้ HTML แยกต่างหากสำหรับเวอร์ชันอุปกรณ์เคลื่อนที่และเวอร์ชันเดสก์ท็อป ให้ระบุชุดลิงก์เดียวกันในเวอร์ชันอุปกรณ์เคลื่อนที่กับในเวอร์ชันเดสก์ท็อป หากไม่สามารถระบุชุดลิงก์เดียวกันในเวอร์ชันอุปกรณ์เคลื่อนที่ ให้ตรวจสอบว่าลิงก์เหล่านั้นอยู่ในไฟล์ Sitemap Google จะจัดทำดัชนีหน้าเว็บในเวอร์ชันอุปกรณ์เคลื่อนที่เท่านั้น และการจำกัดลิงก์ที่แสดงในหน้าดังกล่าวอาจทำให้การค้นพบหน้าใหม่ช้าลง

สิ่งที่ควรหลีกเลี่ยง

  • ส่ง Sitemap เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
  • คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดใน Sitemap หรือทำการ Crawl ทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
  • ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี

ปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์

เพิ่มความเร็วในการโหลดหน้าเว็บ

สิ่งที่จำกัดการ Crawl ของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจทำการ Crawl หน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการ Crawl เนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot ทำการ Crawl ในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้ทำการ Crawl เนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการ Crawl เนื้อหานั้น

วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการรวบรวมข้อมูลมีดังนี้

  • ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
  • ตรวจสอบว่าหน้าเว็บโหลดเร็ว
  • ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการ Crawl
  • ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี

ระบุการเปลี่ยนแปลงเนื้อหาด้วยรหัสสถานะ HTTP

โดยทั่วไปแล้ว Google รองรับส่วนหัวของคำขอ HTTP If-Modified-Since และ If-None-Match สำหรับการ Crawl Crawler ของ Google จะไม่ส่งส่วนหัวที่มีการพยายาม Crawl ทั้งหมด โดยขึ้นอยู่กับ Use Case ของคําขอ (เช่น AdsBot มีแนวโน้มที่จะตั้งค่าส่วนหัวคําขอ HTTP If-Modified-Since และ If-None-Match) หาก Crawler ส่งส่วนหัว If-Modified-Since ค่าของส่วนหัวจะเป็นวันที่และเวลาที่เนื้อหาได้รับการ Crawl ครั้งล่าสุด โดยอิงตามค่านั้น เซิร์ฟเวอร์อาจเลือกแสดงรหัสสถานะ HTTP 304 (Not Modified) ที่ไม่มีเนื้อหาการตอบกลับ ซึ่งในกรณีนี้ Google จะใช้เวอร์ชันของเนื้อหาที่ทำการ Crawl ครั้งล่าสุดซ้ำ หากเนื้อหาเป็นรุ่นใหม่กว่าวันที่ที่ Crawler ระบุในส่วนหัว If-Modified-Since เซิร์ฟเวอร์อาจแสดงรหัสสถานะ HTTP 200 (OK) พร้อมเนื้อหาตอบกลับ

คุณสามารถส่งรหัสสถานะ HTTP 304 (Not Modified) และเนื้อหาการตอบกลับสำหรับคำขอของ Googlebot ได้โดยไม่ขึ้นกับส่วนหัวของคำขอ หากเนื้อหาไม่มีการเปลี่ยนแปลงตั้งแต่ Googlebot มาที่ URL ครั้งล่าสุด การดําเนินการนี้จะช่วยประหยัดเวลาและทรัพยากรของเซิร์ฟเวอร์ในการประมวลผล ซึ่งอาจช่วยปรับปรุงประสิทธิภาพการ Crawl ได้โดยอ้อม

ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา

การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการ Crawl จากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก

การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search ทำการ Crawl อาจส่งผลเสียต่อการ Crawl และจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้

สิ่งที่ควรทำ

  • ใช้ robots.txt หากไม่ต้องการให้ Google ทำการ Crawl ทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
  • หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง

สิ่งที่ควรหลีกเลี่ยง

  • อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
  • อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่

ข้อผิดพลาด soft 404 รายการ

ข้อผิดพลาด soft 404 แสดงเมื่อ URL ที่แสดงหน้าเว็บแจ้งให้ผู้ใช้ทราบว่าไม่มีหน้านั้นอยู่ และแสดงรหัสสถานะ 200 (success) ด้วย ในบางกรณี หน้านี้อาจเป็นหน้าที่ไม่มีเนื้อหาหลักหรือเป็นหน้าว่างเปล่า

หน้าเว็บเหล่านี้อาจสร้างขึ้นด้วยเหตุผลหลายประการโดยเว็บเซิร์ฟเวอร์หรือระบบจัดการเนื้อหาของเว็บไซต์ หรือโดยเบราว์เซอร์ของผู้ใช้ เช่น

  • ไม่มีไฟล์คำสั่งรวมฝั่งเซิร์ฟเวอร์
  • การเชื่อมต่อฐานข้อมูลขัดข้อง
  • หน้าผลการค้นหาภายในว่างเปล่า
  • ไฟล์ JavaScript ที่ไม่ได้โหลดหรือไม่มี

ผู้ใช้จะได้รับประสบการณ์ที่ไม่ดีหากแสดงรหัสสถานะ 200 (success) แต่จากนั้นกลับแสดงหรือแนะนําข้อความแสดงข้อผิดพลาดหรือข้อผิดพลาดบางอย่างในหน้าเว็บ ผู้ใช้อาจคิดว่าหน้านี้เป็นหน้าที่ใช้งานได้จริง แต่จากนั้นกลับแสดงข้อผิดพลาดบางอย่าง ระบบจะกันหน้าเหล่านั้นออกจาก Search

เมื่ออัลกอริทึมของ Google ตรวจพบว่าที่จริงแล้วหน้าเว็บนั้นมีข้อผิดพลาดโดยพิจารณาจากเนื้อหาของหน้า Search Console จะแสดงข้อผิดพลาด soft 404 ในรายงานการจัดทำดัชนีหน้าเว็บสำหรับเว็บไซต์นั้น

แก้ไขข้อผิดพลาด soft 404

คุณสามารถแก้ไขข้อผิดพลาด soft 404 ได้หลายวิธี ซึ่งขึ้นอยู่กับสถานะของหน้าเว็บและผลลัพธ์ที่ต้องการ ดังนี้

พยายามกำหนดว่าโซลูชันใดเหมาะกับผู้ใช้มากที่สุด

หน้าและเนื้อหานั้นไม่มีให้ใช้อีกต่อไป

หากคุณนำหน้าเว็บออกและไม่มีหน้าอื่นให้ใช้แทนในเว็บไซต์โดยที่มีเนื้อหาคล้ายกัน ให้แสดงรหัส (สถานะ) การตอบกลับ 404 (not found) หรือ 410 (gone) สำหรับหน้านั้น รหัสสถานะเหล่านี้บอกให้เครื่องมือค้นหาทราบว่าหน้าเว็บนั้นไม่มีอยู่และคุณไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนีหน้าเว็บ

หากมีสิทธิ์เข้าถึงไฟล์การกําหนดค่าเซิร์ฟเวอร์ของคุณ คุณสามารถทําให้หน้าแสดงข้อผิดพลาดเหล่านี้มีประโยชน์ต่อผู้ใช้ได้โดยปรับแต่งหน้า หน้า 404 แบบกำหนดเองที่ดีจะช่วยให้ผู้ใช้พบข้อมูลที่ตนต้องการ และยังให้เนื้อหาอื่นๆ ที่เป็นประโยชน์ซึ่งกระตุ้นให้ผู้ใช้สำรวจเว็บไซต์ของคุณต่อไปอีกด้วย เคล็ดลับในการออกแบบหน้า 404 แบบกำหนดเองที่มีประโยชน์มีดังนี้

  • แจ้งผู้เข้าชมให้ชัดเจนว่าไม่พบหน้าเว็บที่กำลังค้นหา ใช้ถ้อยคำที่น่าอ่านและอ่านเข้าใจง่าย
  • ตรวจสอบว่าหน้า 404 มีรูปลักษณ์ (รวมถึงการนำทาง) เหมือนกับส่วนอื่นๆ ในเว็บไซต์
  • ลองเพิ่มลิงก์ไปยังบทความหรือโพสต์ที่ได้รับความนิยมสูงสุด รวมถึงลิงก์ที่ไปยังหน้าแรกของเว็บไซต์ด้วย
  • หาวิธีรายงานลิงก์เสียสำหรับผู้ใช้

หน้า 404 ที่กําหนดเองจะสร้างขึ้นสําหรับผู้ใช้เท่านั้น เนื่องจากหน้าเว็บเหล่านี้ไม่มีประโยชน์จากมุมมองของเครื่องมือค้นหา โปรดตรวจสอบว่าเซิร์ฟเวอร์จะแสดงรหัสสถานะ HTTP 404 เพื่อป้องกันการจัดทําดัชนีหน้า

ขณะนี้หน้าหรือเนื้อหานั้นอยู่ที่อื่นแล้ว

หากหน้าเว็บย้ายไปอยู่ที่อื่นหรือมีหน้าอื่นให้ใช้แทนอย่างชัดเจนในเว็บไซต์ ให้แสดง 301 (permanent redirect) กลับมาเพื่อเปลี่ยนเส้นทางผู้ใช้ การดําเนินการนี้จะไม่รบกวนประสบการณ์การท่องเว็บของผู้ใช้และยังเป็นวิธีที่ดีในการแจ้งเครื่องมือค้นหาเกี่ยวกับตําแหน่งใหม่ของหน้าเว็บด้วย ใช้เครื่องมือตรวจสอบ URL เพื่อตรวจสอบว่า URL แสดงรหัสที่ถูกต้องจริงหรือไม่

หน้าและเนื้อหานั้นยังมีอยู่

หากหน้าเว็บที่ไม่มีปัญหาถูกตั้งค่าสถานะด้วยข้อผิดพลาด soft 404 ก็เป็นไปได้ว่าหน้านั้นโหลดขึ้นอย่างไม่ถูกต้องสำหรับ Googlebot ทรัพยากรสำคัญขาดหายไป หรือแสดงข้อความแสดงข้อผิดพลาดอย่างชัดเจนระหว่างการแสดงผล ใช้เครื่องมือตรวจสอบ URL เพื่อตรวจสอบเนื้อหาที่แสดงผลและรหัส HTTP ที่แสดงกลับมา หากหน้าที่แสดงผลนั้นว่างเปล่าหรือแทบจะว่างเปล่า หรือเนื้อหามีข้อความแสดงข้อผิดพลาด ก็อาจเป็นไปได้ว่าหน้านั้นมีการอ้างอิงทรัพยากรจำนวนมากที่โหลดไม่ได้ (รูปภาพ สคริปต์ และองค์ประกอบอื่นๆ ที่ไม่ใช่ข้อความ) ซึ่งอาจทำให้ระบบตีความว่าเป็น soft 404 ได้ สาเหตุส่วนหนึ่งที่ทำให้ทรัพยากรโหลดไม่ได้คือทรัพยากรถูกบล็อก (บล็อกโดย robots.txt) มีทรัพยากรมากเกินไปใน 1 หน้า มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์หลายอย่าง หรือทรัพยากรโหลดช้าหรือมีขนาดใหญ่มาก

จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)

Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอการ Crawl จนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้

การวิเคราะห์

ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป

การแก้ไข

ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการ Crawl จาก Googlebot ที่มากเกินไป

  1. แสดงรหัสสถานะการตอบกลับ HTTP 503 หรือ 429 ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองทำการ Crawl URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google ทำการ Crawl URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดทำการ Crawl URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม
  2. เมื่ออัตราการ Crawl ลดลง ให้หยุดแสดงรหัส 503 หรือ 429 สำหรับคำขอทำการ Crawl เนื่องจากการแสดงรหัส 503 หรือ 429 นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี
  3. ตรวจสอบการ Crawl และความสามารถของโฮสต์เมื่อเวลาผ่านไป
  4. หาก Crawler ที่ทำให้เกิดปัญหาคือหนึ่งใน Crawler AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามทำการ Crawl การ Crawl นี้จะเกิดขึ้นทุก 3 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการ Crawl เหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา