คำอธิบายเรื่องการนํา URL ออก ตอนที่ 2: การนำข้อความที่ละเอียดอ่อนออกจากหน้าเว็บ

วันศุกร์ที่ 6 สิงหาคม 2010

บางครั้งก็อาจมีการเปลี่ยนแปลงเกิดขึ้น อย่างที่เราเห็นในโพสต์ก่อนหน้าเรื่องการนํา URL ออก คุณสามารถบล็อกหรือนําหน้านั้นๆ ออกจากเว็บไซต์ได้อย่างสมบูรณ์ แต่บางครั้งคุณอาจจะเปลี่ยนแค่บางส่วนของหน้าหรือนําเนื้อหาบางส่วนออก การเปลี่ยนแปลงอาจใช้เวลาสักพักก่อนที่จะแสดงในผลการค้นหาของเรา ทั้งนี้ขึ้นอยู่กับความถี่ในการ Crawl หน้าเว็บ ในบล็อกโพสต์นี้ เราจะมาดูขั้นตอนที่คุณทําได้ในกรณีที่ยังมีเนื้อหาเก่าที่นําออกแล้วแสดงในผลการค้นหา ไม่ว่าจะในรูปแบบ "ตัวอย่างข้อมูล" หรือในหน้าเว็บที่แคชไว้ซึ่งลิงก์จากผลการค้นหาได้ การดําเนินการนี้เป็นสิ่งที่สมควรทำเมื่อเนื้อหาเก่ามีข้อมูลที่ละเอียดอ่อนซึ่งต้องนําออกอย่างรวดเร็ว ซึ่งหากเป็นเพียงแค่อัปเดตเว็บไซต์ตามปกติ คุณก็ไม่จําเป็นต้องดําเนินการใดๆ

ลองดูตัวอย่างผลการค้นหาสมมติต่อไปนี้

Walter E. Coyote < ชื่อ

Chief Development Officer at Acme Corp 1948-2003: worked on the top
secret velocitus incalculii capturing device which has shown potential...

< ตัวอย่างข้อมูล
www.example.com/about/waltercoyote - แคชไว้ < URL + ลิงก์ไปยังหน้าที่แคช

หากต้องการเปลี่ยนเนื้อหาที่แสดงในตัวอย่างข้อมูล (หรือในหน้าที่แคชไว้) ให้เปลี่ยนเนื้อหาในหน้าจริง (ที่เผยแพร่อยู่) ก่อน กระบวนการอัตโนมัติของ Google จะยังคงแสดงเนื้อหาเดิมบางส่วนในผลการค้นหาต่อไป เว้นแต่เนื้อหาที่มองเห็นได้ในหน้าเว็บจะมีการเปลี่ยนแปลง

เมื่อเนื้อหาในหน้าเว็บมีการเปลี่ยนแปลงแล้ว คุณจะเห็นตัวเลือกหลายอย่างในการทําให้การเปลี่ยนแปลงเหล่านั้นปรากฏในผลการค้นหา ดังนี้

  1. รอให้ Googlebot ทำการ Crawl และจัดทําดัชนีหน้าเว็บอีกครั้ง: นี่เป็นวิธีตามปกติสำหรับการอัปเดตเนื้อหาส่วนใหญ่ที่ Google บางครั้งอาจใช้เวลาค่อนข้างนาน ทั้งนี้ขึ้นอยู่กับความถี่ที่ Googlebot ทำการ Crawl หน้าเว็บดังกล่าว เมื่อเราทำการ Crawl และจัดทําดัชนีหน้าเว็บอีกครั้งแล้ว เนื้อหาเก่ามักจะมองไม่เห็น เนื่องจากเนื้อหาจะถูกแทนที่ด้วยเนื้อหาปัจจุบัน หากว่า Googlebot ไม่ถูกบล็อกให้ทำการ Crawl หน้าเว็บ (ไม่ว่าจะโดย robots.txt หรือไม่สามารถเข้าถึงเซิร์ฟเวอร์ได้อย่างถูกต้อง) คุณก็ไม่จําเป็นต้องดําเนินการใดๆ เป็นพิเศษ โดยทั่วไป คุณจะเร่งขั้นตอนการ Crawl และการจัดทําดัชนีไม่ได้ เนื่องจากเป็นกระบวนการอัตโนมัติทั้งหมด และขึ้นอยู่กับปัจจัยภายนอกหลายอย่าง

  2. ให้ใช้เครื่องมือนํา URL สาธารณะออกของ Google เพื่อขอให้นําเนื้อหาที่ถูกนําออกจากหน้าเว็บของผู้อื่นออก ในการใช้เครื่องมือนี้ คุณต้องป้อน URL ที่ถูกต้องของหน้าที่มีการแก้ไข เลือกตัวเลือก "เนื้อหาถูกนําออกจากหน้าเว็บแล้ว" จากนั้น ให้ระบุคําอย่างน้อย 1 คําที่ถูกนําออกจากหน้านั้นไปแล้วโดยสิ้นเชิง

    เครื่องมือนําแคชออกของ Google

    โปรดทราบว่าต้องไม่มีคําที่คุณป้อนปรากฏอยู่ในหน้าเลย แม้ว่าจะมีการนําคําออกจากส่วนหนึ่งของหน้าแล้ว คําขอจะถูกปฏิเสธหากคํานั้นยังปรากฏอยู่ในส่วนอื่นของหน้า อย่าลืมเลือกคํา (หรือหลายคํา) ที่ไม่ปรากฏอยู่ในทุกที่บนหน้าเว็บอีกต่อไป ในตัวอย่างข้างต้น หากคุณได้นําคำ "top secret velocitus incalculii capturing device" ออกแล้ว คุณควรส่งคําดังกล่าว ไม่ใช่คำประเภทว่า "โครงการของฉัน" อย่างไรก็ตาม หากคํา "top" หรือ "device" ยังคงปรากฎอยู่ที่ตําแหน่งใดก็ตามในหน้าเว็บ คําขอจะถูกปฏิเสธ เพื่อเป็นการเพิ่มโอกาสสูงให้คำขอนำออกสำเร็จ ปกติแล้ว เราจะแนะนําให้ป้อนเพียงคําเดียวที่คุณแน่ใจว่าจะไม่ปรากฏที่ตําแหน่งใดบนหน้า

    เมื่อมีการดําเนินการกับคําขอแล้ว และไม่พบคําที่ส่งในหน้าอีกต่อไป ผลการค้นหาจะไม่แสดงตัวอย่างข้อมูล และหน้าที่แคชไว้จะใช้งานไม่ได้อีก ชื่อและ URL ของหน้าจะยังคงอยู่ และคำที่เป็นปัญหาอาจยังปรากฏในผลการค้นหา หากมีการค้นหาที่เกี่ยวข้องกับเนื้อหาที่ถูกลบไป (เช่น การค้นหาคำว่า velocitus incalculii) แม้ว่าคำเหล่านั้นจะไม่ปรากฏในตัวอย่างข้อมูลก็ตาม อย่างไรก็ตามเมื่อมีการ Crawl และทำดัชนีหน้าอีกครั้ง ตัวอย่างข้อมูลและหน้าแคชใหม่จะปรากฏในผลการค้นหาของเรา

    โปรดทราบว่าเราจะต้องยืนยันการนําคําดังกล่าวออกด้วยการดูหน้าเว็บ หากหน้านั้นไม่มีอยู่อีกต่อไปและเซิร์ฟเวอร์ส่งรหัสผลลัพธ์ HTTP ที่เหมาะสม ได้แก่ 404 หรือ 410 กลับมา ซึ่งทําให้เราไม่สามารถดูหน้าดังกล่าวได้ ก็แสดงว่าคำขอให้นําหน้าออกของคุณเป็นไปด้วยดี

  3. ใช้เครื่องมือนํา URL ออกของเครื่องมือของผู้ดูแลเว็บของ Google เพื่อขอให้นําข้อมูลในหน้าเว็บออกจากเว็บไซต์ของคุณ หากคุณมีสิทธิ์เข้าถึงเว็บไซต์ที่เป็นปัญหาและได้ยืนยันการเป็นเจ้าของเว็บไซต์ใน Google เครื่องมือของผู้ดูแลเว็บแล้ว คุณจะใช้เครื่องมือนํา URL ออกได้ (อยู่ในส่วนการกำหนดค่าเว็บไซต์ > การอนุญาต Crawler) เพื่อขอให้นําตัวอย่างข้อมูลและหน้าที่แคชไว้ออกจนกว่าจะมีการ Crawl หน้านั้นอีกครั้ง หากต้องการใช้เครื่องมือนี้ คุณเพียงแค่ส่ง URL ที่ถูกต้องของหน้าเว็บเท่านั้น (ไม่จําเป็นต้องระบุคําที่นำออก) เมื่อคําขอได้รับการดําเนินการแล้ว เราจะนําตัวอย่างข้อมูลและหน้าเว็บที่แคชไว้ออกจากผลการค้นหา ชื่อและ URL ของหน้าเว็บจะยังปรากฏอยู่ และหน้าเว็บอาจยังคงอยู่ในอันดับในผลการค้นหาที่เกี่ยวข้องกับเนื้อหาที่นําออกไปแล้ว หลังจากที่ทำการ Crawl และจัดทำดัชนีหน้าเว็บอีกครั้งแล้ว ผลการค้นหาที่มีตัวอย่างข้อมูลที่อัปเดตและหน้าที่แคชไว้ (อิงตามเนื้อหาใหม่) จะปรากฏขึ้น

Google ไม่ได้จัดทําดัชนีและจัดอันดับรายการต่างๆ โดยอิงตามเนื้อหาของหน้าเว็บเท่านั้น แต่ยังรวมใช้ปัจจัยภายนอกอื่นๆ เช่น ลิงก์ขาเข้าไปยัง URL ด้วย ด้วยเหตุนี้ จึงอาจเป็นไปได้ที่ URL จะยังปรากฏในผลการค้นหาสำหรับเนื้อหาที่ไม่ได้อยู่ในหน้าแล้ว แม้ว่าจะมีการ Crawl และจัดทําดัชนีหน้าเว็บอีกครั้งแล้วก็ตาม แม้ว่าเครื่องมือนํา URL ออกจะสามารถนําตัวอย่างข้อมูลและหน้าที่แคชไว้ออกจากผลการค้นหาได้ แต่จะไม่เปลี่ยนหรือนําชื่อของผลการค้นหาออก ให้คุณเปลี่ยน URL ที่แสดงอยู่หรือป้องกันไม่ให้หน้าดังกล่าวแสดงในผลการค้นหาตามเนื้อหาในปัจจุบันหรือเนื้อหาก่อนหน้า หากเรื่องนี้สําคัญ คุณควรตรวจสอบว่า URL เป็นไปตามข้อกําหนดของการนําออกโดยสมบูรณ์จากผลการค้นหาของเราไหม

การนําเนื้อหาที่ไม่ใช่ HTML ออก

หากเนื้อหาที่มีการเปลี่ยนแปลงไม่อยู่ใน (X) HTML (เช่น หากมีการเปลี่ยนแปลงรูปภาพ ไฟล์ Flash หรือไฟล์ PDF ) คุณจะไม่สามารถใช้เครื่องมือนําแคชออก ดังนั้น หากเป็นเรื่องสำคัญที่เนื้อหาเก่าจะต้องไม่ปรากฏในผลการค้นหาอีก วิธีแก้ปัญหาที่เร็วที่สุดคือการเปลี่ยน URL ของไฟล์เพื่อให้ URL เก่าแสดงรหัสผลลัพธ์ HTTP 404 และใช้เครื่องมือนํา URL ออกเพื่อนํา URL เก่าออก มิเช่นนั้น คุณอาจเลือกอนุญาตให้ Google รีเฟรชข้อมูลตามปกติ โปรดทราบว่าตัวอย่างเนื้อหาที่ไม่ใช่ HTML (เช่น ลิงก์มุมมองด่วนสำหรับไฟล์ PDF) อาจใช้เวลานานกว่าหน้า HTML ปกติในการอัปเดตหลังจากที่ทำการ Crawl อีกครั้ง

ป้องกันเชิงรุกเพื่อไม่ให้ตัวอย่างข้อมูลหรือเวอร์ชันที่แคชไว้แสดงในผลการค้นหา

ในฐานะผู้ดูแลเว็บ คุณมีตัวเลือกในการใช้แท็ก meta ของ robots เพื่อป้องกันลักษณะที่ปรากฏของตัวอย่างข้อมูลหรือเวอร์ชันที่แคชไว้ในเชิงรุกโดยไม่ต้องใช้เครื่องมือนําออก แม้ว่าเราจะไม่แนะนําวิธีนี้เป็นวิธีเริ่มต้น (ตัวอย่างข้อมูลอาจช่วยให้ผู้ใช้จดจําผลการค้นหาที่เกี่ยวข้องได้เร็วขึ้น และหน้าที่แคชไว้ช่วยให้ผู้ใช้ดูเนื้อหาของคุณได้แม้ในกรณีที่เกิดเหตุไม่คาดคิดที่เซิร์ฟเวอร์ไม่พร้อมใช้งาน) คุณสามารถใช้แท็ก meta "nosnippet" ของ robots เพื่อป้องกันไม่ให้แสดงตัวอย่างข้อมูล หรือใช้แท็ก meta "noarchive" ของ robots เพื่อปิดใช้การแคชของหน้าเว็บ โปรดทราบว่าหากมีการเปลี่ยนแปลงในหน้าที่มีอยู่และหน้าที่รู้จัก Googlebot จะต้องทำการ Crawl และจัดทําดัชนีหน้าเหล่านั้นอีกครั้งเพื่อให้การเปลี่ยนแปลงนี้ปรากฏในผลการค้นหา

เราหวังว่าบล็อกโพสต์นี้จะช่วยให้คุณเข้าใจขั้นตอนบางส่วนในเครื่องมือนํา URL ออกสําหรับหน้าเว็บที่อัปเดตมากขึ้น ในบล็อกโพสต์ถัดไป เราจะมาดูกันถึงวิธีส่งคำขอนำเนื้อหาที่คุณไม่ได้เป็นเจ้าของออก โปรดติดตามต่อไป

และเช่นเคย เรายินดีรับฟังความคิดเห็นและคําถามของคุณในฟอรัมความช่วยเหลือสําหรับผู้ดูแลเว็บ

นอกจากนี้ คุณอาจสนใจอ่านการจัดการข้อมูลเกี่ยวกับตัวคุณที่มีอยู่ทางออนไลน์