Thứ Ba, ngày 3 tháng 12 năm 2024
Chắc bạn đã từng nghe qua rằng Google Tìm kiếm cần thực hiện một số việc trước khi một trang web có thể xuất hiện trong kết quả của Google Tìm kiếm. Một trong những bước này được gọi là thu thập dữ liệu. Đối với Google Tìm kiếm, hoạt động thu thập dữ liệu là do Googlebot (một chương trình chạy trên máy chủ của Google) thực hiện. Chương trình này sẽ truy xuất URL và xử lý các vấn đề như lỗi mạng, lệnh chuyển hướng và các chức năng nhỏ khác có thể gặp phải trong quá trình hoạt động trên web. Tuy nhiên, có một vài thông tin không thường được đề cập đến. Trong tháng này, mỗi tuần chúng ta sẽ cùng khám phá một số thông tin trong số đó, vì những nội dung được nói đến đó có thể ảnh hưởng đáng kể đến cách Google thu thập dữ liệu trang web của bạn.
Ôn lại đôi chút: Hoạt động thu thập dữ liệu là gì?
Thu thập dữ liệu là quá trình khám phá các trang web mới và truy cập lại các trang web đã được cập nhật, đồng thời tải các trang đó xuống. Tóm lại, Googlebot sẽ lấy một URL, tạo một yêu cầu HTTP tới máy chủ lưu trữ URL đó, rồi xử lý phản hồi từ máy chủ đó; đồng thời có thể Googlebot sẽ đi theo lệnh chuyển hướng, xử lý lỗi và chuyển nội dung trên trang đến hệ thống lập chỉ mục của Google.
Tuy nhiên, các trang web hiện đại không chỉ là HTML thuần tuý, vậy còn các tài nguyên khác cấu thành nên một trang thì sao? Việc thu thập dữ liệu các tài nguyên này ảnh hưởng như thế nào đến "hạn mức thu thập dữ liệu"? Có thể lưu các tài nguyên này có thể lưu vào bộ nhớ cache ở phía Google không? Ngoài ra, có sự khác biệt nào giữa những URL chưa từng được thu thập dữ liệu và những URL đã được lập chỉ mục? Trong bài đăng này, chúng ta sẽ trả lời những câu hỏi này cùng nhiều câu hỏi khác!
Googlebot và hoạt động thu thập dữ liệu các tài nguyên trên trang
Ngoài HTML, các trang web hiện đại sử dụng kết hợp nhiều công nghệ như JavaScript và CSS để mang đến cho người dùng trải nghiệm sống động và các chức năng hữu ích. Khi truy cập vào các trang như vậy bằng trình duyệt, thì trước tiên trình duyệt sẽ tải URL gốc xuống. URL này sẽ lưu trữ dữ liệu cần thiết để bắt đầu tạo trang cho người dùng — HTML của trang. Dữ liệu ban đầu này có thể chứa tham chiếu đến các tài nguyên như JavaScript và CSS, nhưng cũng có thể chứa hình ảnh và video mà trình duyệt sẽ tải xuống một lần nữa để lần lượt tạo trang sau cùng mà người dùng thấy.
Google cũng làm chính xác như vậy, mặc dù có chút khác biệt:
- Googlebot tải dữ liệu ban đầu xuống từ URL gốc (HTML của trang).
- Googlebot chuyển dữ liệu đã tìm nạp đến Dịch vụ kết xuất web (WRS).
- Thông qua Googlebot, WRS sẽ tải các tài nguyên được tham chiếu trong dữ liệu ban đầu xuống.
- WRS tạo trang bằng cách sử dụng tất cả tài nguyên đã tải xuống, cũng giống như trình duyệt của người dùng.
So với trình duyệt, thời gian giữa mỗi bước có thể lâu hơn đáng kể do các quy tắc ràng buộc về lịch biểu, chẳng hạn như tải dự kiến của máy chủ lưu trữ các tài nguyên cần thiết để kết xuất trang. Và đây là lúc chúng ta nên đề cập đến hạn mức thu thập dữ liệu.
Hoạt động thu thập dữ liệu các tài nguyên cần thiết để kết xuất một trang sẽ làm giảm hạn mức thu thập dữ liệu đối với tên máy chủ lưu trữ tài nguyên đó. Để khắc phục vấn đề này, WRS tìm cách lưu mọi tài nguyên (JavaScript và CSS) được tham chiếu trong các trang mà dịch vụ này kết xuất vào bộ nhớ đệm. Thời gian tồn tại của bộ nhớ cache của WRS không bị ảnh hưởng bởi các lệnh HTTP đối với bộ nhớ cache; thay vào đó, WRS lưu mọi nội dung vào bộ nhớ cache trong tối đa 30 ngày, giúp duy trì hạn mức thu thập dữ liệu của trang web đối với các tác vụ thu thập dữ liệu khác.
Xét từ góc độ chủ sở hữu trang web, việc quản lý cách thức thu thập dữ liệu và tài nguyên được thu thập dữ liệu có thể ảnh hưởng đến hạn mức thu thập dữ liệu của trang web. Bạn nên:
- Sử dụng ít tài nguyên nhất có thể để mang lại trải nghiệm tuyệt vời cho người dùng; trang càng cần ít tài nguyên để kết xuất, thì càng tiêu hao ít hạn mức thu thập dữ liệu trong quá trình kết xuất.
- Thận trọng khi sử dụng các tham số hao tốn nhiều bộ nhớ cache: nếu URL của tài nguyên thay đổi, có thể Google sẽ cần thu thập dữ liệu lại các tài nguyên đó, ngay cả khi nội dung của các tài nguyên đó không thay đổi. Tất nhiên, điều này sẽ làm tiêu hao hạn mức thu thập dữ liệu.
- Lưu trữ tài nguyên trên một tên máy chủ khác với trang web chính, chẳng hạn như bằng cách sử dụng CDN, hoặc chỉ cần lưu trữ tài nguyên trên một miền con khác. Điều này sẽ chuyển các vấn đề về hạn mức thu thập dữ liệu sang máy chủ lưu trữ thực hiện việc phân phát tài nguyên.
Tất cả những điểm này cũng áp dụng cho tài nguyên đa phương tiện. Nếu Googlebot (hoặc cụ thể hơn là Googlebot-Image
và Googlebot-Video
tương ứng) tìm nạp các tài nguyên đó, thì sẽ tiêu tốn hạn mức thu thập dữ liệu của trang web.
Bạn cũng có thể thêm tệp robots.txt vào danh sách này. Tuy nhiên, xét từ góc độ kết xuất trang web, việc không cho phép thu thập dữ liệu tài nguyên thường gây ra vấn đề. Nếu WRS không tìm nạp được tài nguyên quan trọng đối với quá trình kết xuất, thì có thể Google Tìm kiếm sẽ gặp sự cố khi trích xuất nội dung của trang và cho phép trang có được thứ hạng trong Tìm kiếm.
Googlebot thu thập dữ liệu gì?
Nguồn tốt nhất để phân tích những tài nguyên mà Google đang thu thập dữ liệu là nhật ký truy cập thô của trang web. Trong nhật ký này sẽ có một mục tương ứng với từng URL mà trình duyệt và trình thu thập dữ liệu yêu cầu. Để xác định trình thu thập dữ liệu của Google trong nhật ký truy cập, chúng tôi đã xuất bản nội dung về dải IP trong tài liệu dành cho nhà phát triển.
Tất nhiên, tài nguyên tốt thứ hai là báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trong Search Console. Báo cáo này phân tích từng loại tài nguyên tương ứng với trình thu thập dữ liệu:

Sau cùng, nếu thực sự quan tâm đến hoạt động thu thập dữ liệu và kết xuất, cũng như muốn trao đổi về vấn đề này với người khác, thì cộng đồng Trung tâm Tìm kiếm là nơi dành cho bạn. Ngoài ra, bạn cũng có thể tìm chúng tôi trên LinkedIn.
Nội dung cập nhật
- Nội dung cập nhật vào ngày 6 tháng 12 năm 2024: Hãy lưu ý đến tác động về hiệu suất khi phân phát tài nguyên từ một nguồn khác.
Bạn muốn tìm hiểu thêm về hoạt động thu thập dữ liệu? Xem toàn bộ loạt bài Chuyên đề của tháng 12 về thu thập dữ liệu:
Aaseesh Marina
Người quản lý bộ phận hỗ trợ sản phẩm Aaseesh Marina là Người quản lý bộ phận hỗ trợ sản phẩm của Google cho Search Console. Anh tập trung vào việc hỗ trợ chủ sở hữu trang web cải thiện sự hiện diện của trang web của họ trên Google Tìm kiếm. Trước
Adrian Gregory Lui
Nhà quản lý quan hệ đối tác Google News Hãy xem các bài đăng của Adrian Gregory Lui trên blog Trung tâm Google Tìm kiếm. LinkedIn
Adriana Porter Felt
Bảo mật trên Chrome Hãy xem các bài đăng của Adriana Porter Felt trên Blog của Trung tâm Google Tìm kiếm.
Alan Kent
Người hỗ trợ nhà phát triển Hãy xem các bài đăng của Alan Kent trên blog của Trung tâm Google Tìm kiếm. Twitter
Aldrich Christopher
Tính minh bạch của chính sách Xem bài đăng của Aldrich Christopher trên Blog của Trung tâm Google Tìm kiếm. Twitter | LinkedIn | YouTube
Alissa Roberts
Cựu thành viên Nhóm phụ trách chất lượng tìm kiếm Hãy xem các bài đăng của Alissa Roberts trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Amir Rachum
Kỹ sư phần mềm của Search Console Hãy xem các bài đăng của Amir Rachum trên blog của Trung tâm Google Tìm kiếm. Trang web
Andrei Pascovici
Nhóm phụ trách công cụ quản trị trang web Hãy xem các bài đăng của Andrei Pascovici trên blog của Trung tâm Google Tìm kiếm.
Anna Ogawa
Chuyên viên tư vấn cấp cao về hệ sinh thái Google Tìm kiếm Hãy xem các bài đăng của Anna Ogawa trên blog của Trung tâm Google Tìm kiếm. Twitter | LinkedIn
Asaph Arnon
Nhà quản lý kỹ sư phần mềm Hãy xem các bài đăng của Asaph Arnon trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Aurora Morales
Tin cậy và an toàn Aurora làm việc trong Nhóm phụ trách vấn đề Tin cậy và An toàn của Google. Nhiều năm qua, cô chuyên tâm phổ biến kiến thức cho toàn ngành về các chính sách và nguyên tắc đối với sản phẩm để tạo ra một hệ sinh thái an toàn hơn cho
Candice Denic
Nhà quản lý sản phẩm Xem bài đăng của Candice Denic trên Blog Trung tâm Google Tìm kiếm. LinkedIn
Chris Nelson
Nhóm phụ trách chất lượng tìm kiếm Hãy xem các bài đăng của Chris Nelson trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Cory Benavente
Nhà quản lý sản phẩm Tìm kiếm video Hãy xem các bài đăng của Cory Benavente trên Blog của Trung tâm Google Tìm kiếm. LinkedIn
Daniel Yosef
Kỹ sư phần mềm Hãy xem các bài đăng của Daniel Yosef trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Danielle Marshak
Nhà quản lý sản phẩm về video trên Google Tìm kiếm Hãy xem các bài đăng của Danielle Marshak trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Danny Sullivan
Cố vấn Quan hệ công chúng cho Google Tìm kiếm Xem bài đăng của Danny Sullivan trên Blog Trung tâm Google Tìm kiếm. Mastodon
Duy Nguyễn
Chuyên viên phân tích chất lượng Tìm kiếm Xem bài đăng của Duy Nguyen trên blog của Trung tâm Google Tìm kiếm.
Earl J. Wagner
Kỹ sư phần mềm Hãy xem các bài đăng của Earl J. Wagner trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Edu Pereda
Nhóm Nguồn mở của Google Tìm kiếm Hãy xem các bài đăng của Edu Pereda trên blog của Trung tâm Google Tìm kiếm. LinkedIn | GitHub | Mastodon | Twitter
Eiji Kitamura
Người hỗ trợ nhà phát triển Chrome Hãy xem các bài đăng của Eiji Kitamura trên blog của Trung tâm Google Tìm kiếm. Trang web | Twitter | GitHub | Mastodon | LinkedIn
Eric Silva
Nhà quản lý sản phẩm Hãy xem các bài đăng của Eric Silva trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Fan Zhang
Kỹ sư phần mềm Hãy xem các bài đăng của Fan Zhang trên blog của Trung tâm Google Tìm kiếm.
Giacomo Gnecchi Ruscone
Đối tác Tin cậy và An toàn Giacomo hiện đang tập trung vào việc giúp cho Google và hy vọng là cả Internet trở nên an toàn hơn thông qua các mối quan hệ đối tác về các vấn đề quan trọng trên thực tế như sự an toàn cho trẻ em, thông tin sai lệch và
Greg Grothaus
Nhân viên kỹ sư phần mềm, Nhóm phụ trách chất lượng tìm kiếm Hãy xem các bài đăng của Greg Grothaus trên blog của Trung tâm Google Tìm kiếm. Trang web
Ian Hung 洪翊恩
Nhà tư vấn về hệ sinh thái Tìm kiếm Hãy xem các bài đăng của Ian Hung 洪翊恩 trên Blog Trung tâm Google Tìm kiếm. LinkedIn
Irina Tuduce
Kỹ sư phần mềm Hãy xem các bài đăng của Irina Tuduce trên Blog của Trung tâm Google Tìm kiếm. LinkedIn
Jennifer Granito
Giám đốc sản phẩm chuyên trách về chất lượng tin tức Jennifer Granito là Giám đốc sản phẩm chuyên trách về chất lượng tin tức tại Google. Cô hiện là trưởng nhóm sản phẩm về chất lượng tin tức và độ tin cậy trên Tìm kiếm, ứng dụng Google News và các
Jeremy Weinstein
Quản trị viên trang web của Google Hãy xem các bài đăng của Jeremy Weinstein trên blog của Trung tâm Google Tìm kiếm. LinkedIn
Jessica Wong
Nhóm phụ trách chất lượng tìm kiếm Hãy xem các bài đăng của Jessica Wong trên blog của Trung tâm Google Tìm kiếm. LinkedIn