การจัดการการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ

การไปยังส่วนต่างๆ ตามข้อมูลประกอบเป็นฟีเจอร์ทั่วไปของเว็บไซต์ที่ช่วยให้ผู้เข้าชมเปลี่ยนวิธีแสดงรายการ (เช่น ผลิตภัณฑ์ บทความ หรือกิจกรรม) ในหน้าเว็บได้ ฟีเจอร์นี้เป็นฟีเจอร์ที่มีประโยชน์และได้รับความนิยม แต่การใช้งานที่พบบ่อยที่สุดซึ่งอิงตามพารามิเตอร์ของ URL อาจสร้างพื้นที่ URL แบบไม่จำกัด ซึ่งส่งผลเสียต่อเว็บไซต์ใน 2 ทางดังนี้

  • การ Crawl มากเกินไป: เนื่องจาก URL ที่สร้างขึ้นสำหรับการไปยังส่วนต่างๆ ตามข้อมูลประกอบดูเหมือนจะเป็น URL ใหม่และ Crawler ไม่สามารถระบุได้ว่า URL ดังกล่าวจะมีประโยชน์หรือไม่หากไม่ทำการ Crawl ก่อน โดยปกติแล้ว Crawler จะเข้าถึง URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบจำนวนมากก่อนที่กระบวนการของ Crawler จะระบุได้ว่า URL ดังกล่าวไม่มีประโยชน์
  • การ Crawl ค้นพบช้าลง: สืบเนื่องจากประเด็นก่อนหน้า หากการ Crawl ใช้เวลาไปกับ URL ที่ไม่มีประโยชน์ Crawler ก็จะมีเวลาน้อยลงในการ Crawl URL ใหม่ที่มีประโยชน์

การไปยังส่วนต่างๆ ตามข้อมูลประกอบทั่วไปอาจมีพารามิเตอร์ต่างๆ ในสตริงการค้นหาที่เกี่ยวข้องกับพร็อพเพอร์ตี้ของรายการที่กรอง เช่น

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

การเปลี่ยนพารามิเตอร์ของ URL อย่างใดอย่างหนึ่งต่อไปนี้ products, color และ size จะแสดงรายการชุดอื่นในหน้าเว็บที่เกี่ยวข้อง ซึ่งมักจะหมายถึงการรวมตัวกรองที่เป็นไปได้จำนวนมาก และทำให้มี URL ที่เป็นไปได้จำนวนมาก เราขอแนะนำให้จัดการกับ URL เหล่านี้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้เพื่อประหยัดทรัพยากร

  • หากไม่ต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบที่อาจได้รับการจัดทำดัชนี ให้ป้องกันไม่ให้มีการ Crawl URL เหล่านี้
  • หากต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีสิทธิ์ได้รับการจัดทำดัชนี ให้ตรวจสอบว่า URL ดังกล่าวเป็นไปตามแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนต่อไปนี้ โปรดทราบว่าการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีแนวโน้มที่จะใช้ทรัพยากรการประมวลผลของเว็บไซต์เป็นจำนวนมาก เนื่องจากมี URL และการดำเนินการจำนวนมากที่จำเป็นในการแสดงผลหน้าเว็บเหล่านั้น

ป้องกันไม่ให้ทำการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ

หากต้องการประหยัดทรัพยากรเซิร์ฟเวอร์และไม่ต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบปรากฏใน Google Search คุณสามารถป้องกันไม่ให้มีการ Crawl URL เหล่านี้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้

  • ใช้ robots.txt เพื่อไม่ให้มีการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ บ่อยครั้งที่ไม่มีเหตุผลที่ดีในการอนุญาตให้ทำการ Crawl รายการที่กรอง เนื่องจากจะสิ้นเปลืองทรัพยากรเซิร์ฟเวอร์โดยไม่มีประโยชน์หรือมีประโยชน์เพียงเล็กน้อยเท่านั้น ดังนั้นจึงควรให้อนุญาตการ Crawl เฉพาะหน้าของรายการแต่ละรายการพร้อมกับหน้าข้อมูลเฉพาะที่แสดงผลิตภัณฑ์ทั้งหมดโดยไม่ใช้ตัวกรอง
    user-agent: Googlebot
    disallow: /*?*products=
    disallow: /*?*color=
    disallow: /*?*size=
    allow: /*?products=all$
    
  • ใช้ส่วนย่อย URL เพื่อระบุตัวกรอง โดยทั่วไป Google Search ยังไม่รองรับ ส่วนย่อย URL ในการ Crawl และการจัดทำดัชนี หากกลไกการกรองอิงตามส่วนย่อย URL จะไม่มีผลต่อการ Crawl (ไม่ว่าจะในเชิงบวกหรือเชิงลบ) เช่น ใช้ URL ของ URL แทนพารามิเตอร์ของ URL
    https://example.com/items.shtm#products=fish&color=radioactive_green&size=tiny

วิธีอื่นๆ ในการให้สัญญาณว่าค่ากำหนดว่า URL ใดของการไปยังส่วนต่างๆ ตามข้อมูลประกอบที่จะ (ไม่) ให้ทำการ Crawl นั้นใช้องค์ประกอบ rel="canonical" link และแอตทริบิวต์แท็ก Anchor rel="nofollow" อย่างไรก็ตาม โดยทั่วไปแล้ววิธีการเหล่านี้มีประสิทธิภาพน้อยกว่าในระยะยาวเมื่อเทียบกับวิธีการที่กล่าวถึงก่อนหน้านี้

  • การใช้ rel="canonical" เพื่อระบุ URL เวอร์ชัน Canonical ของ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบอาจทำให้ปริมาณการ Crawl ของ URL เหล่านั้นในเวอร์ชันที่ไม่ใช่ Canonical ลดลงเมื่อเวลาผ่านไป ตัวอย่างเช่น หากคุณมีหน้าเว็บที่มีการกรองอยู่ 3 ประเภท ให้พิจารณาชี้ rel="canonical" ไปยังเวอร์ชันที่ไม่มีการกรอง ดังนี้ https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny ระบุ <link rel="canonical" href="https://example.com/items.shtm?products=fish" >
  • การใช้แอตทริบิวต์แท็ก Anchor rel="nofollow" ที่ชี้ไปยังหน้าผลการค้นหาที่มีการกรองอาจมีประโยชน์ แต่โปรดทราบว่าแท็ก Anchor ทั้งหมดที่ชี้ไปยัง URL ที่เฉพาะเจาะจงต้องมีแอตทริบิวต์ rel="nofollow" จึงจะมีประสิทธิภาพ

ตรวจสอบว่า URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบเหมาะสมกับเว็บ

หากต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีโอกาสได้รับการ Crawl และจัดทำดัชนี ให้ตรวจสอบว่าคุณได้ทำตามแนวทางปฏิบัติแนะนําต่อไปนี้เพื่อลดผลกระทบเชิงลบของการ Crawl URL ที่เป็นไปได้จำนวนมากในเว็บไซต์

  1. ใช้ตัวคั่นพารามิเตอร์ของ URL ตามมาตรฐานอุตสาหกรรม "&" อักขระอย่างเช่นคอมมา (,) เซมิโคลอน (;) และวงเล็บ ([ และ ]) นั้นทำให้ Crawler ตรวจจับตัวคั่นพารามิเตอร์ได้ยาก (เนื่องจากส่วนใหญ่แล้วตัวคั่นเหล่านี้ไม่ใช่ตัวคั่น)
  2. หากคุณเข้ารหัสตัวกรองในเส้นทาง URL เช่น /products/fish/green/tiny ให้ตรวจสอบว่าลําดับเชิงตรรกะของตัวกรองจะเหมือนเดิมเสมอและไม่มีตัวกรองที่ซ้ำกัน
  3. แสดงรหัสสถานะ HTTP 404 เมื่อชุดค่าผสมของตัวกรองไม่แสดงผลลัพธ์ หากในพื้นที่ของเว็บไซต์ไม่มีปลาสีเขียว (green fish) ผู้ใช้และ Crawler ควรได้รับข้อผิดพลาด "ไม่พบหน้า" พร้อมโค้ดสถานะ HTTP ที่เหมาะสม (404) ในกรณีนี้ควรเกิดขึ้นด้วยหาก URL มีตัวกรองที่ซ้ำกันหรือชุดค่าผสมตัวกรองที่ไร้เหตุผล และ URL แบ่งหน้าเว็บที่ไม่มีอยู่จริง ในทำนองเดียวกัน หากชุดค่าผสมตัวกรองไม่มีผลลัพธ์ ก็อย่าเปลี่ยนเส้นทางไปยังหน้าข้อผิดพลาด "ไม่พบหน้า" ทั่วไป แต่ให้แสดงข้อผิดพลาด "ไม่พบหน้า" พร้อมรหัสสถานะ HTTP 404 ใต้ URL ที่พบข้อผิดพลาดแทน