ภาพรวมโปรแกรมรวบรวมข้อมูลของ Google (User Agent)

"โปรแกรมรวบรวมข้อมูล" เป็นคำทั่วไปสำหรับโปรแกรมต่างๆ (เช่น โรบ็อตหรือสไปเดอร์) ที่ใช้สำรวจและสแกนเว็บไซต์โดยอัตโนมัติด้วยการติดตามลิงก์จากหน้าเว็บหนึ่งไปยังอีกหน้าเว็บหนึ่ง โปรแกรมรวบรวมข้อมูลหลักของ Google เรียกว่า Googlebot ตารางนี้แสดงข้อมูลโปรแกรมรวบรวมข้อมูลทั่วไปของ Google ที่อาจพบในบันทึกผู้อ้างอิง และวิธีที่ควรระบุโปรแกรมดังกล่าวไว้ใน robots.txt, เมตาแท็ก robots และคำสั่ง HTTP ของ X-Robots-Tag

ตารางต่อไปนี้แสดงโปรแกรมรวบรวมข้อมูลที่ผลิตภัณฑ์และบริการต่างๆ ใช้ที่ Google

  • โทเค็น User Agent จะใช้ในบรรทัด User-agent: ของ robots.txt เพื่อจับคู่กับประเภทโปรแกรมรวบรวมข้อมูลเมื่อเขียนกฎการรวบรวมข้อมูลสำหรับเว็บไซต์ โปรแกรมรวบรวมข้อมูลบางตัวมีมากกว่า 1 โทเค็นดังที่แสดงในตาราง คุณต้องจับคู่โทเค็นของโปรแกรมรวบรวมข้อมูลเพียง 1 โปรแกรมเท่านั้นเพื่อใช้กฎ รายการนี้ไม่สมบูรณ์ แต่ครอบคลุมโปรแกรมรวบรวมข้อมูลส่วนใหญ่ที่อาจเห็นในเว็บไซต์
  • สตริง User Agent แบบเต็มเป็นคำอธิบายแบบเต็มของโปรแกรมรวบรวมข้อมูล และจะปรากฏในคำขอและบันทึกการใช้เว็บ
โปรแกรมรวบรวมข้อมูล โทเค็น User Agent (โทเค็นผลิตภัณฑ์) สตริง User Agent แบบเต็ม
APIs-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot Mobile Web Android

(ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของ Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot Mobile Web

(ตรวจสอบคุณภาพโฆษณาในหน้าเว็บของ iPhone)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(ตรวจสอบคุณภาพโฆษณาในหน้าเว็บสำหรับเดสก์ท็อป)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot Desktop

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    หรือ (ไม่ค่อยนิยมใช้)
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Smartphone

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense

Mediapartners-Google

(อุปกรณ์เคลื่อนที่ประเภทต่างๆ) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

แอป Android บนอุปกรณ์เคลื่อนที่

(ตรวจสอบคุณภาพโฆษณาในหน้าแอปของ Android ปฏิบัติตามกฎของโรบ็อต AdsBot-Google)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

ไม่ดำเนินการตามกฎของ robots.txt ดูเหตุผลที่นี่

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google อ่านออกเสียง

Google-Read-Aloud

ไม่ดำเนินการตามกฎของ robots.txt ดูเหตุผลที่นี่

Agent ปัจจุบัน

  • Agent ในเดสก์ท็อป: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)
  • Agent ในอุปกรณ์เคลื่อนที่: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers)

Agent เดิม (เลิกใช้งาน): google-speakr

Duplex on the web

DuplexWeb-Google

อาจไม่สนใจไวลด์การ์ด * ดูเหตุผลที่นี่

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google Favicon

(ดึงไอคอน Fav ของบริการต่างๆ)

Google Favicon

สำหรับคำขอที่เริ่มโดยผู้ใช้ ระบบจะไม่สนใจกฎของ robots.txt

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

ไม่ดำเนินการตามกฎของ robots.txt ดูเหตุผลที่นี่

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot Storebot-Google

Agent ในเดสก์ท็อป: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36

Agent ในอุปกรณ์เคลื่อนที่: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36

User Agent ใน robots.txt

เมื่อระบบรู้จัก User Agent หลายตัวในไฟล์ robots.txt แล้ว Google จะดำเนินการตาม User Agent ที่เจาะจงที่สุด หากต้องการให้โปรแกรมของ Google ทั้งหมดรวบรวมข้อมูลหน้าเว็บได้ คุณไม่จำเป็นต้องใช้ไฟล์ robots.txt เลย แต่หากต้องการบล็อกหรืออนุญาตให้เข้าถึงเนื้อหาบางส่วน สามารถทำได้โดยระบุ Googlebot เป็น User Agent ตัวอย่างเช่น ไม่จำเป็นต้องใช้ไฟล์ robots.txt หากต้องการให้หน้าทั้งหมดปรากฏใน Google Search และหากต้องการให้โฆษณา AdSense ปรากฏในหน้า เช่นเดียวกัน หากต้องการบล็อกไม่ให้ Google เข้าถึงบางหน้าโดยสมบูรณ์ การบล็อก User Agent ของ Googlebot จะบล็อก User Agent อื่นๆ ทั้งหมดของ Google ด้วย

แต่หากต้องการการควบคุมที่ละเอียดยิ่งขึ้น คุณระบุให้เจาะจงกว่าเดิมได้ ตัวอย่างเช่น คุณอาจต้องการให้หน้าทั้งหมดปรากฏใน Google Search แต่ไม่ต้องการให้มีการรวบรวมข้อมูลรูปภาพในไดเรกทอรีส่วนตัว ในกรณีนี้ ให้ใช้ robots.txt เพื่อไม่อนุญาตให้ User Agent ของ Googlebot-Image รวบรวมข้อมูลไฟล์ในไดเรกทอรีส่วนตัว (แต่อนุญาตให้ Googlebot รวบรวมข้อมูลไฟล์ทั้งหมด) ดังต่อไปนี้

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

อีกตัวอย่างหนึ่ง เช่น สมมติว่าต้องการแสดงโฆษณาในหน้าทั้งหมด แต่ไม่ต้องการให้หน้าเหล่านั้นปรากฏใน Google Search คุณบล็อก Googlebot แต่อนุญาต User Agent ของ Mediapartners-Google ได้ดังต่อไปนี้

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

User Agent ในเมตาแท็ก robots

บางหน้าจะใช้เมตาแท็ก robots หลายตัวเพื่อระบุคำสั่งสำหรับโปรแกรมรวบรวมข้อมูลต่างๆ ดังต่อไปนี้

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

ในกรณีนี้ Google จะใช้ผลรวมของคำสั่งเชิงลบ และ Googlebot จะทำตามทั้งคำสั่ง noindex และ nofollow ข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการควบคุมวิธีที่ Google รวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์