Feedfetcher
Feedfetcher คือวิธีที่ Google ทำการ Crawl ฟีด RSS หรือ Atom สำหรับ Google News และ PubSubHubbub Feedfetcher จะจัดเก็บและรีเฟรชฟีดที่ผู้ใช้แอปหรือบริการขอเป็นระยะๆ เฉพาะฟีดพอดแคสต์เท่านั้นที่จะจัดทำดัชนีใน Google Search และอาจจะยังจัดทำดัชนีแม้ว่าฟีดนั้นไม่เป็นไปตามข้อกำหนด Atom หรือ RSS ต่อไปนี้เป็นคำตอบของคำถามที่พบบ่อยเกี่ยวกับวิธีการทำงานของโปรแกรมดึงฟีดที่ผู้ใช้ควบคุม
ฉันจะขอไม่ให้ Google เรียกฟีดของเว็บไซต์บางส่วนหรือทั้งหมดได้อย่างไร
Feedfetcher ของ Google จะพยายามรับเนื้อหาของฟีดมาแสดง เมื่อผู้ใช้เพิ่มบริการหรือแอปที่ใช้ข้อมูล Feedfetcher เนื่องจากคำขอของ Feedfetcher มาจากการกระทำที่ชัดแจ้งของผู้ใช้ที่เป็นมนุษย์ และไม่ได้มาจาก Crawler อัตโนมัติ Feedfetcher จึงเพิกเฉยกฎของ robots.txt
หากฟีดของคุณเผยแพร่แบบสาธารณะ Google จะจำกัดการเข้าถึงของผู้ใช้ไม่ได้ วิธีแก้ไขวิธีหนึ่งคือ กำหนดค่าเว็บไซต์ให้แสดงข้อความแสดงสถานะข้อผิดพลาด 404
, 410
หรืออื่นๆ ไปยัง User Agent ของ Feedfetcher-Google
หากฟีดได้มาจากบล็อกหรือบริการโฮสติ้งเว็บไซต์ โปรดติดต่อบริการนั้นๆ โดยตรงให้จำกัดการเข้าถึงฟีดดังกล่าว
Feedfetcher จะรวบรวมข้อมูลฟีดของฉันบ่อยเพียงใด
โดยเฉลี่ยแล้ว Feedfetcher ไม่ควรรวบรวมข้อมูลจากเว็บไซต์ส่วนใหญ่เกินชั่วโมงละครั้ง เว็บไซต์ที่อัปเดตบ่อยบางเว็บอาจมีการรีเฟรชบ่อยกว่านั้น อย่างไรก็ตาม โปรดทราบว่าเนื่องจากเครือข่ายมีความล่าช้า Feedfetcher จึงอาจปรากฏขึ้นชั่วครู่เพื่อรวบรวมข้อมูลฟีดของคุณให้บ่อยขึ้น
ทำไม Feedfetcher พยายามดาวน์โหลดลิงก์ที่ไม่ถูกต้องจากเซิร์ฟเวอร์ของฉัน หรือจากโดเมนที่ไม่มีอยู่
Feedfetcher รวบรวมข้อมูลฟีดตามคำขอของบริการหรือแอปที่ผู้ใช้ติดตั้ง เป็นไปได้ว่าผู้ใช้อาจขอ URL ฟีดที่ไม่มีอยู่
ทำไม Feedfetcher ดาวน์โหลดข้อมูลจากเว็บเซิร์ฟเวอร์ "ลับ" ของฉัน
Feedfetcher รวบรวมข้อมูลฟีดตามคำขอของบริการหรือแอปที่ผู้ใช้ติดตั้ง เป็นไปได้ว่าคำขอมาจากผู้ใช้ที่ทราบเกี่ยวกับเซิร์ฟเวอร์ "ลับ" ของคุณหรือเกิดการพิมพ์ผิดโดยไม่ได้ตั้งใจ
ทำไม Feedfetcher ไม่ทำตามไฟล์ robots.txt ของฉัน
Feedfetcher จะรวบรวมข้อมูลฟีดเฉพาะหลังจากที่ผู้ใช้ดำเนินการอย่างชัดแจ้งเพื่อเริ่มใช้บริการหรือแอปที่ขอข้อมูลจากฟีด โดย Feedfetcher ทำหน้าที่เป็นตัวแทนตรงของผู้ใช้ที่เป็นมนุษย์ ไม่ใช่โรบ็อต ด้วยเหตุนี้จึงไม่สนใจรายการใน robots.txt เนื่องจาก Feedfetcher ทำหน้าที่เป็นตัวแทนของผู้ใช้หลายคน จึงประหยัดแบนด์วิดท์ด้วยการขอฟีดทั่วไปเพียงครั้งเดียวสำหรับผู้ใช้ทุกคนที่ขอฟีดผ่านแอปหรือบริการ ฟีดทั่วไปคือ RSS และ Atom
คุณป้องกันไม่ให้ Feedfetcher ทำการ Crawl เว็บไซต์ได้โดยกำหนดค่าเซิร์ฟเวอร์ให้แสดงข้อความสถานะข้อผิดพลาด 404
, 410
หรืออื่นๆ ไปยัง User Agent ของ Feedfetcher-Google
ทำไมจึงมีการเข้าชมจากคอมพิวเตอร์หลายเครื่องที่ Google.com โดยทั้งหมดมาพร้อมกับ user-agent Feedfetcher
Feedfetcher ได้รับการออกแบบมาให้กระจายการทำงานในคอมพิวเตอร์หลายเครื่องเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น คอมพิวเตอร์เครื่องต่างๆ ที่ใช้มักตั้งอยู่ใกล้กับเว็บไซต์ที่ตัวเครื่องกำลังรวบรวมข้อมูลในเครือข่าย เพื่อลดการใช้แบนด์วิดท์
ช่วยบอกที่อยู่ IP ที่ Feedfetcher สร้างคำขอได้ไหม ฉันจะได้กรองบันทึก
ที่อยู่ IP ที่ Feedfetcher ใช้จะรวมอยู่ในออบเจ็กต์ user-triggered-fetchers-google.json
ทำไม Feedfetcher ดาวน์โหลดหน้าเดิมในเว็บไซต์หลายครั้ง
โดยทั่วไป Feedfetcher จะดาวน์โหลดสำเนาของแต่ละไฟล์เพียงสำเนาเดียวจากเว็บไซต์ของคุณในระหว่างการรวบรวมข้อมูลฟีดครั้งหนึ่งๆ ในบางครั้ง เครื่องจะหยุดและรีสตาร์ท ซึ่งอาจเป็นสาเหตุให้รวบรวมข้อมูลหน้าที่เพิ่งเข้าชมไปอีกครั้ง
Feedfetcher ติดตามลิงก์ประเภทใด
Feedfetcher จะไม่ติดตามลิงก์เหมือนกับโปรแกรมรวบรวมข้อมูลเว็บทั่วไป แต่จะทำตามคำขอที่ได้รับจากผู้ใช้บริการหรือแอปที่ใช้ Feedfetcher
ที่นี่ไม่มีคำตอบสำหรับสิ่งที่ฉันถามเกี่ยวกับ Feedfetcher ฉันจะขอรับความช่วยเหลือเพิ่มเติมได้จากที่ใด
หากยังคงพบปัญหา ให้ลองโพสต์คำถามใน ฟอรัมของ Search Central