การจัดการการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ
การไปยังส่วนต่างๆ ตามข้อมูลประกอบเป็นฟีเจอร์ทั่วไปของเว็บไซต์ที่ช่วยให้ผู้เข้าชมเปลี่ยนวิธีแสดงรายการ (เช่น ผลิตภัณฑ์ บทความ หรือกิจกรรม) ในหน้าเว็บได้ ฟีเจอร์นี้เป็นฟีเจอร์ที่มีประโยชน์และได้รับความนิยม แต่การใช้งานที่พบบ่อยที่สุดซึ่งอิงตามพารามิเตอร์ของ URL อาจสร้างพื้นที่ URL แบบไม่จำกัด ซึ่งส่งผลเสียต่อเว็บไซต์ใน 2 ทางดังนี้
- การ Crawl มากเกินไป: เนื่องจาก URL ที่สร้างขึ้นสำหรับการไปยังส่วนต่างๆ ตามข้อมูลประกอบดูเหมือนจะเป็น URL ใหม่และ Crawler ไม่สามารถระบุได้ว่า URL ดังกล่าวจะมีประโยชน์หรือไม่หากไม่ทำการ Crawl ก่อน โดยปกติแล้ว Crawler จะเข้าถึง URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบจำนวนมากก่อนที่กระบวนการของ Crawler จะระบุได้ว่า URL ดังกล่าวไม่มีประโยชน์
- การ Crawl ค้นพบช้าลง: สืบเนื่องจากประเด็นก่อนหน้า หากการ Crawl ใช้เวลาไปกับ URL ที่ไม่มีประโยชน์ Crawler ก็จะมีเวลาน้อยลงในการ Crawl URL ใหม่ที่มีประโยชน์
การไปยังส่วนต่างๆ ตามข้อมูลประกอบทั่วไปอาจมีพารามิเตอร์ต่างๆ ในสตริงการค้นหาที่เกี่ยวข้องกับพร็อพเพอร์ตี้ของรายการที่กรอง เช่น
https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny
การเปลี่ยนพารามิเตอร์ของ URL อย่างใดอย่างหนึ่งต่อไปนี้ products
, color
และ size
จะแสดงรายการชุดอื่นในหน้าเว็บที่เกี่ยวข้อง ซึ่งมักจะหมายถึงการรวมตัวกรองที่เป็นไปได้จำนวนมาก และทำให้มี URL ที่เป็นไปได้จำนวนมาก เราขอแนะนำให้จัดการกับ URL เหล่านี้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้เพื่อประหยัดทรัพยากร
- หากไม่ต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบที่อาจได้รับการจัดทำดัชนี ให้ป้องกันไม่ให้มีการ Crawl URL เหล่านี้
- หากต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีสิทธิ์ได้รับการจัดทำดัชนี ให้ตรวจสอบว่า URL ดังกล่าวเป็นไปตามแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนต่อไปนี้ โปรดทราบว่าการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีแนวโน้มที่จะใช้ทรัพยากรการประมวลผลของเว็บไซต์เป็นจำนวนมาก เนื่องจากมี URL และการดำเนินการจำนวนมากที่จำเป็นในการแสดงผลหน้าเว็บเหล่านั้น
ป้องกันไม่ให้ทำการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ
หากต้องการประหยัดทรัพยากรเซิร์ฟเวอร์และไม่ต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบปรากฏใน Google Search คุณสามารถป้องกันไม่ให้มีการ Crawl URL เหล่านี้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้
-
ใช้ robots.txt เพื่อไม่ให้มีการ Crawl URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบ บ่อยครั้งที่ไม่มีเหตุผลที่ดีในการอนุญาตให้ทำการ Crawl รายการที่กรอง เนื่องจากจะสิ้นเปลืองทรัพยากรเซิร์ฟเวอร์โดยไม่มีประโยชน์หรือมีประโยชน์เพียงเล็กน้อยเท่านั้น ดังนั้นจึงควรให้อนุญาตการ Crawl เฉพาะหน้าของรายการแต่ละรายการพร้อมกับหน้าข้อมูลเฉพาะที่แสดงผลิตภัณฑ์ทั้งหมดโดยไม่ใช้ตัวกรอง
user-agent: Googlebot disallow: /*?*products= disallow: /*?*color= disallow: /*?*size= allow: /*?products=all$
-
ใช้ส่วนย่อย URL เพื่อระบุตัวกรอง
โดยทั่วไป Google Search ยังไม่รองรับ ส่วนย่อย URL ในการ Crawl และการจัดทำดัชนี
หากกลไกการกรองอิงตามส่วนย่อย URL จะไม่มีผลต่อการ Crawl (ไม่ว่าจะในเชิงบวกหรือเชิงลบ) เช่น ใช้ URL ของ URL แทนพารามิเตอร์ของ URL
https://example.com/items.shtm#products=fish&color=radioactive_green&size=tiny
วิธีอื่นๆ ในการให้สัญญาณว่าค่ากำหนดว่า URL ใดของการไปยังส่วนต่างๆ ตามข้อมูลประกอบที่จะ (ไม่) ให้ทำการ Crawl นั้นใช้องค์ประกอบ rel="canonical"
link
และแอตทริบิวต์แท็ก Anchor rel="nofollow"
อย่างไรก็ตาม โดยทั่วไปแล้ววิธีการเหล่านี้มีประสิทธิภาพน้อยกว่าในระยะยาวเมื่อเทียบกับวิธีการที่กล่าวถึงก่อนหน้านี้
-
การใช้
rel="canonical"
เพื่อระบุ URL เวอร์ชัน Canonical ของ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบอาจทำให้ปริมาณการ Crawl ของ URL เหล่านั้นในเวอร์ชันที่ไม่ใช่ Canonical ลดลงเมื่อเวลาผ่านไป ตัวอย่างเช่น หากคุณมีหน้าเว็บที่มีการกรองอยู่ 3 ประเภท ให้พิจารณาชี้rel="canonical"
ไปยังเวอร์ชันที่ไม่มีการกรอง ดังนี้https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny
ระบุ<link rel="canonical" href="https://example.com/items.shtm?products=fish" >
-
การใช้แอตทริบิวต์แท็ก Anchor
rel="nofollow"
ที่ชี้ไปยังหน้าผลการค้นหาที่มีการกรองอาจมีประโยชน์ แต่โปรดทราบว่าแท็ก Anchor ทั้งหมดที่ชี้ไปยัง URL ที่เฉพาะเจาะจงต้องมีแอตทริบิวต์rel="nofollow"
จึงจะมีประสิทธิภาพ
ตรวจสอบว่า URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบเหมาะสมกับเว็บ
หากต้องการให้ URL การไปยังส่วนต่างๆ ตามข้อมูลประกอบมีโอกาสได้รับการ Crawl และจัดทำดัชนี ให้ตรวจสอบว่าคุณได้ทำตามแนวทางปฏิบัติแนะนําต่อไปนี้เพื่อลดผลกระทบเชิงลบของการ Crawl URL ที่เป็นไปได้จำนวนมากในเว็บไซต์
-
ใช้ตัวคั่นพารามิเตอร์ของ URL ตามมาตรฐานอุตสาหกรรม "
&
" อักขระอย่างเช่นคอมมา (,
) เซมิโคลอน (;
) และวงเล็บ ([
และ]
) นั้นทำให้ Crawler ตรวจจับตัวคั่นพารามิเตอร์ได้ยาก (เนื่องจากส่วนใหญ่แล้วตัวคั่นเหล่านี้ไม่ใช่ตัวคั่น) -
หากคุณเข้ารหัสตัวกรองในเส้นทาง URL เช่น
/products/fish/green/tiny
ให้ตรวจสอบว่าลําดับเชิงตรรกะของตัวกรองจะเหมือนเดิมเสมอและไม่มีตัวกรองที่ซ้ำกัน -
แสดงรหัสสถานะ HTTP
404
เมื่อชุดค่าผสมของตัวกรองไม่แสดงผลลัพธ์ หากในพื้นที่ของเว็บไซต์ไม่มีปลาสีเขียว (green fish) ผู้ใช้และ Crawler ควรได้รับข้อผิดพลาด "ไม่พบหน้า" พร้อมโค้ดสถานะ HTTP ที่เหมาะสม (404
) ในกรณีนี้ควรเกิดขึ้นด้วยหาก URL มีตัวกรองที่ซ้ำกันหรือชุดค่าผสมตัวกรองที่ไร้เหตุผล และ URL แบ่งหน้าเว็บที่ไม่มีอยู่จริง ในทำนองเดียวกัน หากชุดค่าผสมตัวกรองไม่มีผลลัพธ์ ก็อย่าเปลี่ยนเส้นทางไปยังหน้าข้อผิดพลาด "ไม่พบหน้า" ทั่วไป แต่ให้แสดงข้อผิดพลาด "ไม่พบหน้า" พร้อมรหัสสถานะ HTTP404
ใต้ URL ที่พบข้อผิดพลาดแทน