Cách chúng tôi ngăn chặn nội dung rác trên Google Tìm kiếm năm 2020

Thứ Năm, ngày 29 tháng 4 năm 2021

Googlebot và người bạn nhện đang đọc báo cáo về nội dung vi phạm trên web năm 2020

Google Tìm kiếm là một công cụ vô cùng hiệu quả để giúp bạn tìm thông tin hữu ích trên môi trường web mở. Đáng tiếc là không phải trang web nào cũng ra đời với ý định tốt đẹp. Nhiều trang web rõ ràng được tạo ra để đánh lừa mọi người. Đây là điều mà chúng tôi phải ngăn chặn mỗi ngày. Để đảm bảo an toàn cho bạn và bảo vệ bạn khỏi nội dung gây nhiễu và hành vi ác ý khi tìm kiếm thông tin, Google Tìm kiếm đã đầu tư đổi mới nhiều phương diện trong năm 2020.

Ngăn chặn nội dung vi phạm theo cách thông minh hơn

Chúng tôi vẫn không ngừng ngăn chặn nội dung vi phạm kể từ những ngày đầu phát triển Tìm kiếm, tuy nhiên, những tiến bộ gần đây trong lĩnh vực Trí tuệ nhân tạo (AI) đã mở ra tiềm năng chưa từng có để chúng tôi thay đổi toàn diện phương pháp của mình.

Bằng cách kết hợp AI với kiến thức chuyên sâu về nội dung vi phạm, năm ngoái, chúng tôi đã xây dựng được AI chống gian lận của riêng Google. Công nghệ này đặc biệt hiệu quả trong việc phát hiện xu hướng đã biết lẫn xu hướng mới về nội dung vi phạm. Ví dụ: So với vài năm trước, chúng tôi đã giảm được hơn 80% số lượng trang web có nội dung tạo tự động và nội dung cóp nhặt.

Nội dung vi phạm do bị tấn công vẫn tràn lan trong năm 2020 do số trang web dễ bị tấn công vẫn khá lớn, dù cho khả năng phát hiện của chúng tôi đã tăng hơn 50% và chúng tôi đã xoá hầu hết nội dung vi phạm do bị tấn công khỏi kết quả tìm kiếm.

Đây là vấn đề mà chúng tôi không thể giải quyết một mình. Ngay cả khi chúng tôi có thể phát hiện và ngăn chặn tất cả nội dung vi phạm, thì tin tặc cũng không ngừng lợi dụng các lỗ hổng cho đến khi tất cả lỗ hổng đều được khắc phục. Chủ sở hữu trang web có thể bảo vệ trang web của mình bằng cách áp dụng các biện pháp bảo mật hiệu quả: việc bảo vệ trang web khỏi bị tấn công sẽ dễ dàng hơn việc khôi phục trang web đã bị tấn công. Google cung cấp tài nguyên giúp bạn tìm hiểu về những lỗ hổng phổ biến nhất khiến trang web bị tấn công và cách sử dụng Search Console để kiểm tra xem trang web của bạn có bị tấn công hay không. Vui lòng tìm hiểu và cùng chúng tôi bảo vệ an toàn cho môi trường web!

Trước các sự kiện lớn năm ngoái, trong đó có đại dịch toàn cầu, chúng tôi đã nỗ lực hết sức để gia tăng mức độ bảo vệ cho hàng tỷ lượt tìm kiếm mà Google nhận được về các chủ đề quan trọng như vậy. Nếu đang tìm điểm xét nghiệm COVID gần bạn chẳng hạn, thì bạn sẽ không phải lo lắng rằng mình sẽ gặp phải những nội dung vô giá trị, có khả năng chuyển hướng đến các trang web lừa đảo. Bên cạnh việc loại bỏ nội dung vi phạm, chúng tôi cũng hợp tác với một số nhóm khác của Tìm kiếm để đảm bảo bạn nhận được thông tin mới nhất và có chất lượng cao nhất, vào đúng thời điểm và đúng nội dung quan trọng nhất.

Ngăn không cho nội dung vi phạm tiếp cận bạn

Trước khi cung cấp mỗi tập hợp kết quả tìm kiếm trên Google, chúng tôi phải trải qua quy trình gồm rất nhiều bước. Mỗi ngày, chúng tôi phát hiện, thu thập dữ liệu và lập chỉ mục hàng tỷ trang web. Trong số những trang đó, có rất nhiều trang chứa nội dung vi phạm – mỗi ngày, chúng tôi phát hiện đến 40 tỷ trang nội dung vi phạm. Sau đây là cách chúng tôi ngăn không cho nội dung vi phạm cản trở quá trình người dùng tìm kiếm thông tin hữu ích.

cách chúng tôi ngăn chặn nội dung vi phạm theo từng bước — Sơ đồ này mô phỏng cách chúng tôi bảo vệ bạn khỏi nội dung vi phạm.

Đầu tiên, chúng tôi có những hệ thống có thể phát hiện nội dung vi phạm khi thu thập dữ liệu các trang hoặc nội dung khác. Quá trình thu thập dữ liệu diễn ra khi các hệ thống tự động truy cập vào nội dung và xem xét để đưa nội dung đó vào chỉ mục mà chúng tôi dùng để cung cấp kết quả tìm kiếm. Những nội dung mà hệ thống phát hiện là nội dung vi phạm sẽ không được thêm vào chỉ mục.

Chúng tôi cũng áp dụng những hệ thống này cho nội dung mà chúng tôi phát hiện thông qua sơ đồ trang web và Search Console. Ví dụ: Search Console có tính năng Yêu cầu lập chỉ mục để người yêu cầu có thể cho chúng tôi biết về các trang mới cần được nhanh chóng thêm vào chỉ mục. Theo ghi nhận của chúng tôi, những kẻ vi phạm đã xâm nhập vào các trang web dễ bị tấn công, mạo danh là chủ sở hữu trang web, tự xác minh trong Search Console rồi dùng công cụ này để yêu cầu Google thu thập dữ liệu và lập chỉ mục nhiều trang nội dung vi phạm mà chúng tạo ra. Nhờ sử dụng AI, chúng tôi có thể xác định các lượt xác minh đáng ngờ và ngăn URL vi phạm lọt vào chỉ mục của chúng tôi theo cách này.

Tiếp theo, chúng tôi có các hệ thống phân tích nội dung trong chỉ mục. Khi bạn tìm kiếm, những hệ thống này sẽ kiểm tra thêm lần nữa để xem nội dung phù hợp với yêu cầu tìm kiếm của bạn có phải là nội dung vi phạm hay không. Nếu có, nội dung đó sẽ không xuất hiện trong kết quả tìm kiếm hàng đầu. Chúng tôi cũng dùng thông tin này để cải thiện hệ thống hơn nữa nhằm ngăn chặn hoàn toàn những nội dung vi phạm như vậy xuất hiện trong chỉ mục.

Nhờ có các hệ thống tự động được AI hỗ trợ, rất ít nội dung vi phạm có thể xuất hiện trên trang kết quả hàng đầu mà mọi người nhìn thấy khi tìm kiếm. Theo ước tính của chúng tôi, những hệ thống tự động này giúp đảm bảo hơn 99% lượt truy cập trên Tìm kiếm hoàn toàn không gặp phải nội dung vi phạm. Đối với tỷ lệ nhỏ còn lại, đội ngũ chúng tôi áp dụng biện pháp thủ công và áp dụng những bài học từ đó để tiếp tục cải thiện hệ thống tự động.

Không chỉ bảo vệ bạn khỏi nội dung vi phạm

Ngoài việc đẩy lùi nội dung vi phạm, trong năm 2020, chúng tôi còn nỗ lực hơn nữa để bảo vệ bạn khỏi các hành vi sai trái khác. Nhiều hành vi trong số đó có thể gây ra thiệt hại đáng kể về tài chính và cho cá nhân.

Năm 2020, chúng tôi đã cải thiện đáng kể phạm vi xử lý và bảo vệ thêm nhiều người dùng trước các hành vi lừa đảo và gian lận trên mạng. Các thủ đoạn lừa đảo trên mạng xuất hiện dưới nhiều hình thức và có thể ảnh hưởng tiêu cực đến bạn theo nhiều cách hơn so với nội dung vi phạm truyền thống. Ví dụ: Nhiều kẻ lừa đảo giả vờ cung cấp số điện thoại hỗ trợ khách hàng cho các dịch vụ và sản phẩm phổ biến nhằm lừa những người dùng gọi đến số điện thoại đó phải trả tiền cho chúng qua hình thức chuyển khoản ngân hàng hoặc thẻ quà tặng. Hình thức lừa đảo này thường được gọi là "lừa đảo hỗ trợ khách hàng" hoặc "lừa đảo hỗ trợ kỹ thuật" và đã bị hàng trăm nghìn người dùng báo cáo. Trong mỗi trường hợp, người dùng có thể bị mất đến hàng trăm đô la Mỹ cho kẻ lừa đảo.

ví dụ về hành vi lừa đảo hỗ trợ khách hàng trong kết quả tìm kiếm

Từ năm 2018, hệ thống của chúng tôi đã có khả năng bảo vệ hàng trăm triệu lượt tìm kiếm mỗi năm bằng cách phát hiện những trang web tiềm ẩn hành vi lừa đảo. Trên web, những kẻ lừa đảo cố gắng tạo nhiều trang web chất lượng thấp, nhồi nhét từ khoá, dùng biểu tượng của thương hiệu mà chúng đang mạo danh và cung cấp số điện thoại để người dùng gọi cho chúng. Các giải pháp bằng thuật toán của chúng tôi giúp đảm bảo hành vi lừa đảo và gian lận rất khó có khả năng xuất hiện trong kết quả tìm kiếm. Đây chỉ là một trong số nhiều biện pháp bảo vệ mà chúng tôi bắt đầu áp dụng từ năm ngoái để đảm bảo chất lượng của kết quả tìm kiếm cũng như đảm bảo sự an toàn của bạn. Sứ mệnh của chúng tôi là vượt qua những thách thức này để cung cấp cho bạn những kết quả đáng tin cậy nhất. Bên cạnh đó, bạn cũng có thể tự bảo vệ mình hiệu quả hơn bằng cách liên tục nắm bắt thông tin mới và tìm hiểu về các hành vi lừa đảo.

Những tiến bộ về AI còn hỗ trợ đắc lực cho chúng tôi trong việc hiểu được nội dung trên các trang web. Ví dụ: AI đã giúp chúng tôi cải thiện cách xếp hạng trang web đánh giá sản phẩm, trang web cung cấp thông tin và trang web mua sắm. Google Tìm kiếm là một công cụ tuyệt vời để nghiên cứu và tìm kiếm sản phẩm trước khi mua hàng. Chúng tôi muốn đảm bảo bạn tìm được thông tin hữu ích nhất trước khi bạn mua hàng bằng cách xếp hạng cao cho những nội dung cung cấp nhiều thông tin chuyên sâu và hữu ích.

Mặc dù chúng tôi đã có những tiến bộ đáng kể trong nỗ lực chống gian lận, nhưng những kẻ vi phạm vẫn có nhiều động cơ để phát triển các kỹ thuật mới, có thể né tránh hệ thống phát hiện của chúng tôi. Chúng tôi luôn nỗ lực để tiến bộ và bảo vệ mọi người khỏi các hình thức vi phạm mới. Trên hành trình đó, các lượt báo cáo của người dùng thực sự rất hữu ích. Gần đây, khi sử dụng Tìm kiếm, có lần nào bạn cảm thấy bị đánh lạc hướng, bị lừa đảo, hay gặp phải nội dung vi phạm không, và bạn có nghĩ rằng chúng tôi có thể ngăn chặn những trường hợp như vậy một cách hiệu quả hơn không? Nếu có, vui lòng chia sẻ ý kiến phản hồi thông qua báo cáo về trường hợp gian lận, kèm theo cụm từ tìm kiếm bạn đã sử dụng và mọi thông tin mà bạn cảm thấy là sẽ hữu ích.

Googlebot chung tay cùng bạn chống lại nội dung vi phạm

Người đăng: Cody Kwok, Kỹ sư trưởng

Cách chúng tôi ngăn chặn nội dung rác trên Google Tìm kiếm năm 2020 Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Ngăn chặn nội dung vi phạm theo cách thông minh hơn

Ngăn không cho nội dung vi phạm tiếp cận bạn

Không chỉ bảo vệ bạn khỏi nội dung vi phạm

Cách chúng tôi ngăn chặn nội dung rác trên Google Tìm kiếm năm 2020