Câu hỏi thường gặp về robots

Câu hỏi chung về robots

Trang web của tôi có cần tệp robots.txt không?

Không. Khi Googlebot truy cập một trang web, trước tiên chúng tôi yêu cầu quyền thu thập dữ liệu bằng cách cố gắng truy xuất tệp robots.txt. Thường thì một trang web không có tệp robots.txt, thẻ meta robots hay tiêu đề HTTP X-Robots-Tag sẽ được thu thập dữ liệu và lập chỉ mục như bình thường.

Tôi nên dùng phương thức nào để chặn các trình thu thập dữ liệu?

Còn tùy. Nói ngắn gọn thì có những lý do chính đáng để sử dụng từng phương thức sau:

  • robots.txt: Hãy dùng tệp này nếu việc thu thập dữ liệu nội dung đang gây ra vấn đề trên máy chủ của bạn. Ví dụ: bạn nên chặn việc thu thập dữ liệu trên các tập lệnh lịch vô hạn. Đừng dùng robots.txt để chặn nội dung riêng tư (mà hãy dùng phương thức xác thực phía máy chủ) hoặc để xử lý quá trình chuẩn hóa . Để đảm bảo Google không lập chỉ mục một URL, hãy chuyển sang dùng thẻ meta robots hoặc tiêu đề HTTP X-Robots-Tag.
  • Thẻ meta robots: Hãy dùng thẻ này nếu bạn cần kiểm soát cách thức xuất hiện của một trang HTML đơn lẻ trong kết quả tìm kiếm hoặc để đảm bảo trang này không xuất hiện.
  • Tiêu đề HTTP X-Robots-Tag: Hãy dùng cách này nếu bạn cần kiểm soát cách thức xuất hiện của nội dung trong kết quả tìm kiếm hoặc để đảm bảo nội dung này không xuất hiện.

Tôi có thể dùng tệp robots.txt, thẻ meta robots hoặc tiêu đề HTTP X-Robots-Tag để xoá trang web của người khác khỏi kết quả tìm kiếm không?

Không. Những phương thức này chỉ áp dụng được cho những trang web mà bạn có thể sửa đổi mã hoặc thêm tệp. Hãy tìm hiểu thêm về cách xóa thông tin khỏi Google.

Làm cách nào để tôi có thể làm chậm quá trình thu thập dữ liệu của Google trên trang web của tôi?

Thường thì bạn có thể điều chỉnh chế độ cài đặt tốc độ thu thập dữ liệu trong tài khoản Google Search Console của mình.

Câu hỏi về tệp robots.txt

Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường dẫn tương đối không?

Không. Các lệnh trong tệp robots.txt (ngoại trừ sitemap:) chỉ hợp lệ đối với các đường dẫn tương đối.

Tôi có thể đặt tệp robots.txt trong một thư mục con không?

Không. Tệp phải được đặt trong thư mục cấp cao nhất của trang web.

Tôi muốn chặn một thư mục riêng tư. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?

Không. Tệp robots.txt cho phép nhiều người dùng đọc được. Nếu không muốn công khai thư mục hoặc tên tệp chứa nội dung, thì bạn đừng đưa những nội dung như vậy vào tệp robots.txt. Bạn không nên phân phát nhiều tệp robots.txt dựa trên tác nhân người dùng hoặc các thuộc tính khác.

Tôi có phải đưa vào một lệnh allow để cho phép thu thập dữ liệu không?

Không, bạn không cần đưa vào một lệnh allow. Tất cả URL đều được ngầm hiểu là đã được cho phép và lệnh allow được dùng để ghi đè lệnh disallow trong cùng một tệp robots.txt.

Điều gì sẽ xảy ra nếu tệp robots.txt của tôi chứa lỗi hoặc tôi dùng một lệnh không được hỗ trợ?

Các trình thu thập dữ liệu web nói chung rất linh hoạt và thường sẽ không bị ảnh hưởng khi có những sai sót nhỏ trong tệp robots.txt. Nhìn chung, tình huống xấu nhất có thể xảy ra là trình thu thập dữ liệu sẽ bỏ qua những lệnh không chính xác/không được hỗ trợ. Tuy nhiên, hãy lưu ý rằng mặc dù Google không thể đọc suy nghĩ của bạn khi diễn giải tệp robots.txt nhưng chúng tôi vẫn phải diễn giải tệp robots.txt mà chúng tôi tìm nạp được. Dù vậy, nếu bạn biết có vấn đề trong tệp robots.txt của mình thì việc khắc phục những vấn đề này thường khá dễ dàng.

Tôi nên dùng chương trình nào để tạo tệp robots.txt?

Bạn có thể dùng bất kỳ chương trình gì có khả năng tạo một tệp văn bản hợp lệ. Những chương trình thường được dùng để tạo tệp robots.txt là Notepad, TextEdit, vi hoặc emacs. Đọc thêm về cách tạo tệp robots.txt. Sau khi tạo tệp, hãy dùng Trình kiểm tra robots.txt để xác thực tệp đó.

Nếu tôi dùng một lệnh disallow trong tệp robots.txt để chặn Google thu thập dữ liệu trên một trang, thì trang đó có biến mất khỏi kết quả tìm kiếm không?

Việc chặn Google thu thập dữ liệu trên một trang có thể khiến trang đó bị xóa khỏi chỉ mục của Google.

Tuy nhiên, lệnh disallow trong tệp robots.txt không đảm bảo rằng một trang sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định sự phù hợp của một trang dựa trên những thông tin bên ngoài như các đường liên kết đến trang đó và hiển thị URL đó trong kết quả. Nếu bạn muốn đảm bảo rằng Google không lập chỉ mục một trang nào đó, hãy dùng thẻ meta robots noindex hoặc tiêu đề HTTP X-Robots-Tag. Trong trường hợp này, đừng dùng lệnh disallow trong tệp robots.txt đối với trang này do trang này phải được thu thập dữ liệu để Google có thể nhìn thấy và tuân theo thẻ. Tìm hiểu cách kiểm soát nội dung bạn chia sẻ với Google

Sẽ mất bao lâu để những thay đổi trong tệp robots.txt của tôi tác động đến kết quả tìm kiếm?

Trước hết, bộ nhớ đệm của tệp robots.txt phải được làm mới (chúng tôi thường lưu nội dung vào bộ nhớ đệm trong tối đa một ngày). Bạn có thể tăng tốc quá trình này bằng cách gửi tệp robots.txt đã cập nhật cho Google. Ngay cả sau khi tìm thấy nội dung thay đổi, việc thu thập dữ liệu và lập chỉ mục vẫn là một quá trình phức tạp và đôi khi có thể tốn nhiều thời gian đối với các URL riêng lẻ. Vì vậy, chúng tôi không thể đưa ra thời gian chính xác. Ngoài ra, hãy lưu ý rằng ngay cả khi tệp robots.txt của bạn đang chặn quyền truy cập vào một URL nào đó, URL đó có thể vẫn xuất hiện trong kết quả tìm kiếm dù chúng tôi không thể thu thập dữ liệu. Nếu bạn muốn đẩy nhanh việc xóa những trang bạn đã chặn khỏi Google, hãy gửi một yêu cầu xóa.

Làm cách nào để tôi có thể tạm ngưng toàn bộ hoạt động thu thập dữ liệu trên trang web của mình?

Bạn có thể tạm ngưng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã trạng thái HTTP 503 (service unavailable) cho mọi URL, trong đó có tệp robots.txt. Chúng tôi sẽ đều đặn thử truy cập lại vào tệp robots.txt đó cho đến khi thành công. Bạn không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.

Máy chủ của tôi không phân biệt chữ hoa chữ thường. Làm cách nào để tôi có thể chặn hoàn toàn việc thu thập dữ liệu một số thư mục?

Lệnh trong tệp robots.txt có phân biệt chữ hoa chữ thường. Trong trường hợp này, bạn nên đảm bảo rằng chỉ một phiên bản của URL được lập chỉ mục bằng phương thức chuẩn hóa. Cách này cho phép bạn giảm số dòng trong tệp robots.txt, nhờ đó bạn có thể quản lý tệp dễ dàng hơn. Nếu cách này không khả thi, bạn nên liệt kê các tổ hợp phổ biến của tên thư mục hoặc rút ngắn tối đa tên thư mục bằng cách chỉ sử dụng vài ký tự đầu tiên thay vì tên đầy đủ. Ví dụ: thay vì liệt kê tất cả phiên bản viết hoa và viết thường của /MyPrivateFolder, bạn có thể liệt kê các phiên bản của "/MyP" (nếu bạn chắc chắn rằng trong số những URL có thể thu thập dữ liệu khác, không có URL nào có những ký tự đầu tiên như vậy). Ngoài ra, bạn có thể dùng thẻ meta robots hoặc tiêu đề HTTP X-Robots-Tag thay vào đó nếu hoạt động thu thập dữ liệu không gây ra vấn đề gì.

Tôi trả về mã trạng thái 403 Forbidden cho mọi URL, bao gồm cả tệp robots.txt. Tại sao trang web của tôi vẫn được thu thập dữ liệu?

Mã trạng thái HTTP 403 Forbidden (cũng như các mã trạng thái HTTP 4xx khác) được diễn giải là tệp robots.txt không tồn tại. Tức là trình thu thập dữ liệu thường sẽ mặc nhiên cho rằng có thể thu thập dữ liệu mọi URL của trang web. Để chặn hoạt động thu thập dữ liệu trên trang web, bạn phải trả về tệp robots.txt bằng một mã trạng thái HTTP 200 OK và tệp đó phải chứa quy tắc disallow thích hợp.

Câu hỏi về thẻ meta robots

Thẻ meta robots có thay thế tệp robots.txt được không?

Không. Tệp robots.txt kiểm soát những trang nào được truy cập. Thẻ meta robots kiểm soát việc liệu một trang có được lập chỉ mục hay không, nhưng để xem thẻ này, trang đó phải được thu thập dữ liệu. Nếu hoạt động thu thập dữ liệu trên một trang gây ra vấn đề (ví dụ: nếu trang đó gây ra tình trạng tải cao trên máy chủ), thì hãy dùng tệp robots.txt. Nếu vấn đề chỉ là một trang có xuất hiện trong kết quả tìm kiếm hay không, thì bạn có thể dùng thẻ meta robots.

Tôi có thể dùng thẻ meta robots để chặn việc lập chỉ mục một phần của một trang được không?

Không, thẻ meta robots là một chế độ cài đặt cấp độ trang.

Tôi có thể dùng thẻ meta robots bên ngoài phần <head> không?

Không. Thẻ meta robots phải nằm trong phần <head> của trang.

Thẻ meta robots có chặn hoạt động thu thập dữ liệu không?

Không. Ngay cả khi thẻ meta robots đang có lệnh noindex, chúng tôi thỉnh thoảng vẫn cần thu thập lại dữ liệu trên URL đó để kiểm tra xem thẻ meta có thay đổi hay không.

Thẻ meta robots nofollow và thuộc tính liên kết rel="nofollow" giống và khác nhau như thế nào?

Thẻ meta robots nofollow áp dụng cho mọi đường liên kết trên một trang. Thuộc tính liên kết rel="nofollow" chỉ áp dụng cho một số đường liên kết cụ thể trên một trang. Để biết thêm thông tin về thuộc tính liên kết rel="nofollow", hãy xem tài liệu của chúng tôi về nội dung vi phạm do người dùng tạorel="nofollow".

Các câu hỏi về tiêu đề HTTP X-Robots-Tag

Làm cách nào để tôi có thể kiểm tra X-Robots-Tag cho một URL?

Một cách đơn giản để xem tiêu đề máy chủ là dùng tính năng Công cụ kiểm tra URL trong Google Search Console. Để kiểm tra tiêu đề phản hồi của URL bất kỳ, hãy thử tìm kiếm "trình kiểm tra tiêu đề máy chủ".

Bạn không tìm thấy câu trả lời?

Nếu bạn không tìm thấy câu trả lời cho câu hỏi của mình trên trang này, hãy tham khảo tài nguyên trợ giúp của Google dành cho các chủ sở hữu trang web.

Chúng tôi cũng cung cấp cộng đồng trợ giúp chính thức về Google Tìm kiếm bằng các ngôn ngữ sau: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어