Cara menulis dan mengirimkan file robots.txt
Anda dapat mengontrol file mana yang dapat diakses crawler yang meng-crawl situs Anda dengan file robots.txt.
File robots.txt ada di root situs Anda. Jadi, untuk situs www.example.com
,
file robots.txt berada di www.example.com/robots.txt
. robots.txt adalah
file teks biasa yang mengikuti
Standar Pengecualian Robot.
File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir atau mengizinkan akses untuk semua
crawler atau crawler tertentu ke jalur file yang ditentukan di domain atau subdomain tempat file robots.txt
dihosting. Kecuali jika Anda menentukan sebaliknya di file robots.txt Anda, semua file secara implisit
diizinkan untuk di-crawl.
Berikut adalah file robots.txt sederhana dengan dua aturan:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Berikut maksud dari file robots.txt tersebut:
-
Agen pengguna yang bernama Googlebot tidak diizinkan meng-crawl URL apa pun yang diawali dengan
https://example.com/nogooglebot/
. - Semua agen pengguna lainnya diizinkan untuk meng-crawl seluruh situs. Hal ini dapat dihilangkan dan hasilnya akan sama, karena perilaku default-nya adalah agen pengguna diizinkan meng-crawl seluruh situs.
-
File peta situs pada situs terletak di
https://www.example.com/sitemap.xml
.
Lihat bagian sintaksis untuk contoh lainnya.
Panduan dasar membuat file robots.txt
Ada empat langkah yang perlu dijalani dalam membuat file robots.txt yang dapat diakses secara umum dan bermanfaat:
- Buat file yang bernama robots.txt.
- Tambahkan aturan ke file robots.txt.
- Upload file robots.txt ke root situs Anda.
- Uji file robots.txt.
Membuat file robots.txt
Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Misalnya, Notepad, TextEdit, vi, dan emacs dapat membuat file robots.txt yang valid. Jangan gunakan pengolah kata karena program semacam ini sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak diharapkan, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler. Pastikan untuk menyimpan file dengan encoding UTF-8 jika diminta selama dialog menyimpan file.
Aturan format dan lokasi:
- File harus diberi nama robots.txt.
- Situs hanya boleh memiliki satu file robots.txt.
-
File robots.txt harus berada di root host situs tempat
file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada
https://www.example.com/
, file robots.txt harus berada dihttps://www.example.com/robots.txt
. File tersebut tidak boleh ditempatkan di subdirektori (misalnya dihttps://example.com/pages/robots.txt
). Jika Anda tidak yakin dengan cara mengakses root situs, atau memerlukan izin untuk melakukannya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tagmeta
. -
File robots.txt dapat diposting di subdomain (misalnya
https://site.example.com/robots.txt
) atau di port non-standar (misalnyahttps://example.com:8181/robots.txt
). - File robots.txt hanya berlaku untuk jalur dalam protokol, host, dan port tempat file
diposting. Artinya, aturan di
https://example.com/robots.txt
hanya berlaku untuk file dihttps://example.com/
, bukan untuk subdomain sepertihttps://m.example.com/
, atau protokol alternatif sepertihttp://example.com/
. - File robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Google dapat mengabaikan karakter yang bukan bagian dari rentang UTF-8, yang berpotensi membuat aturan robots.txt tidak valid.
Cara menulis aturan robots.txt
Aturan adalah petunjuk yang menginformasikan bagian situs mana saja yang dapat di-crawl oleh crawler. Ikuti panduan berikut saat menambahkan aturan ke file robots.txt:
- File robots.txt terdiri dari satu atau beberapa grup (kumpulan aturan).
-
Setiap grup terdiri dari beberapa aturan (juga dikenal sebagai perintah), satu aturan per baris. Setiap
grup diawali dengan baris
User-agent
yang menentukan target grup. - Grup memberikan informasi berikut:
- Untuk siapa grup berlaku (agen pengguna).
- Direktori atau file mana yang dapat diakses oleh agen.
- Direktori atau file mana yang tidak dapat diakses oleh agen.
- Crawler memproses grup dari atas ke bawah. Satu agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu grup yang pertama dan paling spesifik yang cocok dengan agen pengguna tertentu. Jika ada beberapa grup untuk agen pengguna yang sama, grup tersebut akan digabungkan menjadi satu grup sebelum pemrosesan.
-
Asumsi default-nya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan
disallow
. -
Aturan peka huruf besar/kecil. Misalnya,
disallow: /file.asp
berlaku untukhttps://www.example.com/file.asp
, tetapi tidak untukhttps://www.example.com/FILE.asp
. -
Karakter
#
menandai awal dari komentar. Komentar diabaikan selama pemrosesan.
Crawler Google mendukung aturan berikut di file robots.txt:
-
user-agent:
[Wajib, satu atau beberapa per grup] Aturan ini menentukan nama klien otomatis yang dikenal sebagai crawler mesin telusur menjadi sasaran penerapan aturan. Ini adalah baris pertama untuk grup aturan apa pun. Nama agen pengguna Google tercantum dalam daftar agen pengguna Google. Penggunaan tanda bintang (*
) sesuai dengan semua crawler kecuali dengan berbagai crawler AdsBot, yang harus dinamai secara eksplisit. Contoh:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[Minimal satu atau beberapa entridisallow
atauallow
per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Jika aturan mengacu pada halaman, nama tersebut harus berupa nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda/
dan jika mengacu pada direktori, nama harus diakhiri dengan tanda/
. -
allow:
[Minimal satu atau beberapa entridisallow
atauallow
per aturan] Direktori atau halaman, yang terkait dengan domain root, yang mungkin di-crawl oleh agen pengguna sebagaimana disebutkan di artikel bantuan ini. Aturan ini digunakan untuk mengganti aturandisallow
guna mengizinkan crawling subdirektori atau halaman dalam direktori yang tidak diizinkan. Untuk satu halaman, tentukan nama halaman lengkap seperti yang ditampilkan di browser. Nama harus diawali dengan tanda/
dan jika mengacu pada direktori, nama harus diakhiri dengan tanda/
. -
sitemap:
[Opsional, nol atau lebih per file] Lokasi peta situs untuk situs ini. URL peta situs harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang baik untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari peta situs lebih lanjut. Contoh:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
Semua aturan, kecuali sitemap
, mendukung karakter pengganti *
untuk awalan jalur,
akhiran, atau string secara keseluruhan.
Baris yang tidak cocok dengan aturan tersebut akan diabaikan.
Baca halaman kami tentang interpretasi Google terkait spesifikasi robots.txt untuk mengetahui deskripsi lengkap dari setiap aturan.
Mengupload file robots.txt
Setelah menyimpan file robots.txt ke komputer, Anda sudah siap menjadikan file tersebut tersedia untuk crawler mesin telusur. Tidak ada alat yang dapat membantu Anda menyelesaikan langkah ini, karena cara Anda mengupload file robots.txt ke situs Anda bergantung pada arsitektur server dan situs Anda. Hubungi perusahaan hosting Anda atau telusuri dokumentasi perusahaan hosting Anda, seperti telusuri "mengupload file ke infomaniak".
Setelah Anda mengupload file robots.txt, uji apakah file tersebut dapat diakses secara publik dan apakah Google dapat mengurainya.
Menguji markup robots.txt
Untuk menguji apakah file robots.txt yang baru diupload dapat diakses secara publik, buka
jendela penjelajahan rahasia
(atau yang setara) di browser Anda dan buka lokasi file robots.txt. Misalnya,
https://example.com/robots.txt
. Jika Anda melihat konten
file robots.txt, berarti markup file siap diuji.
Google menawarkan dua opsi untuk memperbaiki masalah terkait markup robots.txt:
- Laporan robots.txt di Search Console. Anda hanya dapat menggunakan laporan ini untuk file robots.txt yang sudah dapat diakses di situs Anda.
- Jika Anda adalah developer, lihat dan buat library robots.txt open source Google, yang juga digunakan di Google Penelusuran. Anda dapat menggunakan alat ini untuk menguji file robots.txt secara lokal di komputer.
Mengirim file robots.txt ke Google
Setelah Anda mengupload dan menguji file robots.txt Anda, crawler Google secara otomatis akan menemukan dan mulai menggunakan file robots.txt Anda. Anda tidak perlu melakukan apa pun. Jika Anda sudah memperbarui file robots.txt dan harus memperbarui salinan yang di-cache Google sesegera mungkin, pelajari cara mengirimkan file robots.txt yang sudah diperbarui.
Aturan robots.txt yang berguna
Berikut adalah beberapa aturan robots.txt umum yang berguna:
Aturan yang berguna | |
---|---|
Larang crawling keseluruhan situs |
Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun jika situs belum di-crawl. User-agent: * Disallow: / |
Larang crawling direktori beserta isinya |
Tambahkan garis miring ke nama direktori untuk melarang crawling keseluruhan direktori. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Izinkan akses ke satu crawler |
Hanya User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Izinkan akses ke semua kecuali satu crawler |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Larang crawling satu halaman |
Misalnya, larang halaman User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Larang crawling keseluruhan situs kecuali subdirektori |
Crawler hanya dapat mengakses subdirektori User-agent: * Disallow: / Allow: /public/ |
Blokir gambar tertentu dari Google Gambar |
Misalnya, larang gambar User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Blokir semua gambar di situs Anda dari Google Gambar |
Google tidak dapat mengindeks gambar dan video tanpa meng-crawl media tersebut. User-agent: Googlebot-Image Disallow: / |
Larang crawling file untuk jenis file tertentu |
Misalnya, larang crawling semua file User-agent: Googlebot Disallow: /*.gif$ |
Larang crawling keseluruhan situs, tetapi izinkan |
Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, tetapi
web crawler User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Gunakan karakter pengganti * dan $ untuk mencocokkan URL yang diakhiri dengan
string tertentu
|
Misalnya, larang semua file User-agent: Googlebot Disallow: /*.xls$ |