Phân loại chủ đề

Đọc cách dự đoán chủ đề và cách chỉ định chủ đề cho người dùng trình duyệt và cách người dùng có thể kiểm soát danh sách chủ đề của họ.

Trạng thái triển khai

Chủ đề là gì?

Chủ đề (trong Topics API) là một chủ đề mà người dùng quan tâm, bằng chứng là những trang web họ truy cập.

Chủ đề là một tín hiệu giúp các nền tảng công nghệ quảng cáo chọn quảng cáo phù hợp. Không giống như cookie của bên thứ ba, thông tin này được chia sẻ mà không tiết lộ thêm thông tin về bản thân người dùng hoặc hoạt động duyệt web của người dùng.

Topics API cho phép các bên thứ ba (chẳng hạn như các nền tảng công nghệ quảng cáo) quan sát và sau đó truy cập vào những chủ đề người dùng quan tâm. Ví dụ: API có thể đề xuất chủ đề "Sợi & Nghệ thuật Dệt" cho người dùng truy cập vào trang web knitting.example.

Danh sách chủ đề mà Topics API sử dụng là danh sách công khai, do con người chọn lọc, con người có thể đọc được và được thiết kế để tránh các danh mục nhạy cảm. Đây là danh sách hiện tại và sẽ mở rộng theo thời gian. Danh sách này được cấu trúc dưới dạng một hệ thống phân loại. Các chủ đề có thể là cấp cao hoặc cụ thể hơn. Ví dụ: Food & Drink là một danh mục rộng, có danh mục con là Cooking & Recipes. Các danh mục phụ có thể được chia thành các danh mục con bổ sung.

Cách phân loại chủ đề như vậy cần phải đánh đổi giữa tiện ích và quyền riêng tư. Nếu các chủ đề quá cụ thể, chúng có thể được dùng để xác định một người dùng cụ thể. Nếu quá chung chung, từ khoá quá chung chung sẽ không giúp ích cho việc chọn quảng cáo hoặc nội dung khác.

Hệ thống phân loại chủ đề được xây dựng theo hai yêu cầu cơ bản:

  • Hỗ trợ quảng cáo dựa trên mối quan tâm
  • Giữ an toàn cho người dùng và bảo vệ quyền riêng tư của họ

Việc này gợi ý một số câu hỏi. Ví dụ:

  • Đâu là cách tốt nhất để API dự đoán các chủ đề mà người dùng quan tâm dựa trên hoạt động duyệt web trong khi vẫn bảo vệ quyền riêng tư của người dùng?
  • Bạn nên sắp xếp cấu trúc phân loại như thế nào để công cụ này hữu ích hơn?
  • Hệ thống phân loại nên bao gồm những mặt hàng cụ thể nào?

Cách API dự đoán chủ đề cho một trang web

Chủ đề bắt nguồn từ mô hình thuật toán phân loại ánh xạ tên máy chủ của trang web với 0 hoặc nhiều chủ đề. Việc phân tích thông tin bổ sung (chẳng hạn như URL đầy đủ hoặc nội dung trang) có thể cho phép hiển thị quảng cáo phù hợp hơn nhưng cũng có thể làm giảm quyền riêng tư.

Mô hình thuật toán phân loại để ánh xạ tên máy chủ đến chủ đề được cung cấp công khai và như phần giải thích ghi chú, bạn có thể xem chủ đề về một trang web thông qua công cụ cho nhà phát triển của trình duyệt. Mô hình này dự kiến sẽ phát triển và cải thiện theo thời gian cũng như được cập nhật định kỳ; tần suất của điều này vẫn đang được xem xét.

Chỉ những trang web chứa mã gọi Topics API mới được đưa vào nhật ký duyệt web đủ điều kiện để tính tần suất theo chủ đề, còn phương thức gọi API chỉ nhận được những chủ đề mà họ quan sát thấy. Nói cách khác, các trang web không đủ điều kiện để tính tần suất theo chủ đề nếu trang web hoặc dịch vụ được nhúng không gọi API.

Ngoài ra, người gọi chỉ có thể nhận được các chủ đề mà mã của họ đã "nhìn thấy". Vì vậy, nếu mã của một phương thức gọi khác đăng ký một chủ đề, chẳng hạn như /Autos & Vehicles/Motor Vehicles (By Type)/Hatchbacks, cho trình duyệt của người dùng và mã của bạn không khiến chủ đề đó được đăng ký cho trình duyệt của người dùng đó, thì bạn sẽ không thể biết chủ đề họ quan tâm trên trình duyệt của người dùng đó khi gọi API qua mã đã nhúng. Xin lưu ý rằng vì API này hiện bao gồm cả đối tượng cấp trên đã được quan sát, nên ví dụ ở trên (/Autos & Vehicles/Motor Vehicles (By Type)/Hatchbacks) cũng sẽ khiến Autos & VehiclesMotor Vehicles quan sát được.

Các chủ đề trả về cho một người dùng được tính toán lại cho một phương thức gọi tuỳ thuộc vào trang web cấp cao nhất. Ví dụ: nếu adtech.example yêu cầu chủ đề của người dùng trên news-a.example, thì vào news-b.example và sau đó là vào news-c.example, các chủ đề được trả về cho những chủ đề đó sẽ được tính toán lại trên mỗi trang web. Điều này có nghĩa là phương thức gọi có thể nhận được các chủ đề khác nhau cho người dùng trên các trang web cấp cao nhất khác nhau, vì 3 chủ đề (tối đa) trả về cho một người dùng được chọn ngẫu nhiên trong số 5 chủ đề hàng đầu trong 3 khoảng thời gian bắt đầu của hệ thống qua (với 5% cơ hội nhận được chủ đề ngẫu nhiên). Điều đó khiến phương thức gọi khó xác định người dùng theo chủ đề của họ hơn, vì những thông tin này có thể không giống nhau trên các trang web cấp cao nhất (ngay cả đối với cùng một người dùng, phương thức gọi và thời gian bắt đầu của hệ thống).

Mô hình thuật toán phân loại

Các chủ đề được tuyển chọn theo cách thủ công cho 50.000 miền hàng đầu và việc tuyển chọn này được dùng để huấn luyện thuật toán phân loại. Bạn có thể tìm thấy danh sách này trong override_list.pb.gz (có tại chrome://topics-internals/ trong mô hình hiện tại trong thẻ Phân loại). API sử dụng các mối liên kết giữa miền với chủ đề trong danh sách thay cho kết quả của chính mô hình.

Trang chrome://topics-internals có bảng điều khiển Phân loại được chọn.
Bảng điều khiển Trình phân loại trang chrome://topics-internals liệt kê phiên bản mô hình, đường dẫn và các chủ đề liên kết với mỗi máy chủ được liệt kê.

Để chạy mô hình trực tiếp, hãy tham khảo hướng dẫn chạy mô hình của TensorFlow.

Để kiểm tra tệp override_list.pb.gz, trước tiên, hãy giải nén tệp đó:

gunzip -c override_list.pb.gz > override_list.pb

Sử dụng protoc để kiểm tra dưới dạng văn bản:

protoc --decode_raw < override_list.pb > output.txt

Bạn có thể xem toàn bộ hệ thống phân loại các chủ đề có mã nhận dạng trên GitHub.

Đưa ra ý kiến phản hồi hoặc dữ liệu đầu vào về mô hình thuật toán phân loại

một số kênh để bạn cung cấp ý kiến phản hồi về Topics API. Để gửi ý kiến phản hồi về mô hình thuật toán phân loại, bạn nên gửi vấn đề trên GitHub hoặc phản hồi vấn đề hiện có. Ví dụ:

Cách hệ thống lựa chọn 5 chủ đề hàng đầu mà người dùng quan tâm

API trả về một chủ đề cho mỗi thời gian bắt đầu của hệ thống, tối đa là 3 chủ đề. Nếu hệ thống trả về 3, thì kết quả này sẽ bao gồm các chủ đề cho thời gian bắt đầu của hệ thống hiện tại và 2 khoảng thời gian trước đó.

  1. Vào cuối mỗi thời gian bắt đầu của hệ thống, trình duyệt sẽ biên dịch một danh sách các trang đáp ứng những tiêu chí sau:
    • Người dùng đã truy cập trang trong thời gian bắt đầu của hệ thống.
    • Trang này chứa mã gọi document.browsingTopics().
    • API này đã được bật (ví dụ: không bị người dùng chặn hoặc thông qua một tiêu đề phản hồi).
  2. Trình duyệt (trên thiết bị của người dùng) sẽ sử dụng mô hình thuật toán phân loại do Topics API cung cấp để liên kết tên máy chủ của mỗi trang với danh sách chủ đề.
  3. Trình duyệt sẽ tích luỹ danh sách chủ đề.
  4. Trình duyệt sẽ tạo danh sách 5 chủ đề hàng đầu theo tần suất.

Sau đó, phương thức document.browsingTopics() sẽ trả về một chủ đề ngẫu nhiên từ 5 chủ đề hàng đầu cho mỗi thời gian bắt đầu của hệ thống, với 5% khả năng bất kỳ chủ đề nào trong số này có thể được chọn ngẫu nhiên từ cách phân loại đầy đủ các chủ đề. Trong Chrome, người dùng cũng có thể xoá từng chủ đề hoặc xoá nhật ký duyệt web để giảm số lượng chủ đề mà API trả về. Người dùng cũng có thể chọn không sử dụng API.

Bạn có thể xem thông tin về các chủ đề được ghi nhận trong khoảng thời gian bắt đầu của hệ thống hiện tại trên trang chrome://topics-internals.

Cách API quyết định phương thức gọi nào sẽ thấy chủ đề

Các phương thức gọi API chỉ nhận được các chủ đề mà chúng đã quan sát gần đây, còn chủ đề cho người dùng sẽ được làm mới sau mỗi thời gian bắt đầu của hệ thống. Điều đó có nghĩa là API sẽ cung cấp một giai đoạn kéo dài, trong đó một phương thức gọi nhất định có thể nhận được một số chủ đề.

Bảng dưới đây trình bày một ví dụ (mặc dù nhỏ ngoài thực tế) về nhật ký duyệt web giả định của một người dùng trong một khoảng thời gian bắt đầu của hệ thống, cho thấy các chủ đề liên quan đến trang web mà họ đã truy cập và phương thức gọi API có trên mỗi trang web (các thực thể gọi document.browsingTopics() trong mã JavaScript có trên trang web).

Trang web Chủ đề Phương thức gọi API trên trang web
yoga.example Thể dục công nghệ quảng cáo1.ví dụ về công nghệ quảng cáo2.ví dụ
knitting.example Hàng Thủ Công adtech1.example
đi bộ đường dài-lễ.ví dụ Thể dục, du lịch và Giao thông vận tải adtech2.example
diy-clothing.example Thủ công mỹ nghệ, thời trang và Phong cách [không có]

Khi thời gian bắt đầu của hệ thống bắt đầu (hiện là một tuần), Topics API sẽ tạo các chủ đề hàng đầu trên trình duyệt trong tuần.

  • công nghệ quảng cáo1.example hiện đủ điều kiện nhận chứng nhận "Thể dục" và "Crafts" chủ đề, vì nó quan sát thấy chúng trên yoga.example và cũng trên knitting.example.
  • công nghệ quảng cáo1.example không đủ điều kiện để nhận thông báo "Du lịch & Vận tải" cho người dùng này vì chủ đề này không xuất hiện trên bất kỳ trang web nào mà người dùng này truy cập gần đây có liên quan đến chủ đề đó.
  • công nghệ quảng cáo2.example đã thấy chỉ số "Thể dục" và "Du lịch và Vận tải" chủ đề mà chưa xem "Thủ công" chủ đề.

Người dùng đã truy cập vào diy-Quần áo.example, trong đó có nhãn "Thời trang & Kiểu" nhưng không có lệnh gọi nào đến Topics API trên trang web đó. Tại thời điểm này, điều này có nghĩa là "Thời trang và Kiểu" API sẽ không trả về chủ đề cho bất kỳ phương thức gọi nào.

Trong tuần thứ hai, người dùng truy cập vào một trang web khác:

Trang web Chủ đề Phương thức gọi API trên trang web
sewing.example Hàng Thủ Công adtech2.example

Ngoài ra, mã của công nghệ quảng cáo 2.example sẽ được thêm vào tự làm quần áo.example:

Trang web Chủ đề Phương thức gọi API trên trang web
diy-clothing.example Thủ công mỹ nghệ, thời trang và Phong cách adtech2.example

Cũng như "Thể dục" và "Du lịch và Vận tải" kể từ tuần 1, điều này có nghĩa là giờ đây, công nghệ công nghệ quảng cáo2.example sẽ có thể nhận được "Bản dựng" và "Thời trang và Kiểu" chủ đề - nhưng không cho đến thời gian bắt đầu của hệ thống tiếp theo, tuần 3. Điều này đảm bảo rằng bên thứ ba không thể tìm hiểu thêm về quá khứ của người dùng (trong trường hợp này là về sở thích về thời trang) so với thông tin về cookie.

Sau hai tuần nữa, "Thể dục" và "Du lịch và Vận tải" có thể loại khỏi danh sách các chủ đề đủ điều kiện của công nghệ quảng cáo2.example nếu người dùng không truy cập vào bất kỳ trang web nào có các chủ đề đó chứa mã của công nghệ quảng cáo 2.example.

Quyền kiểm soát của người dùng, tính minh bạch và lựa chọn không tham gia

Người dùng phải nắm được mục đích của Topics API, nhận biết được thông tin về họ, biết thời điểm API được sử dụng và nắm được các chế độ kiểm soát để bật hoặc tắt API này.

Hệ thống phân loại API mà con người có thể đọc được cho phép người dùng tìm hiểu và kiểm soát các chủ đề có thể được trình duyệt của họ đề xuất cho họ. Người dùng có thể xoá những chủ đề mà họ đặc biệt không muốn Topics API chia sẻ với nhà quảng cáo hoặc nhà xuất bản. Ngoài ra, có thể có các chế độ kiểm soát để thông báo cho người dùng về API này cũng như cách bật hoặc tắt API này. Chrome cung cấp thông tin và chế độ cài đặt cho Topics API tại chrome://settings/adPrivacy. Ngoài ra, các chủ đề cũng không được cung cấp cho phương thức gọi API ở Chế độ ẩn danh. Các chủ đề sẽ bị xoá khi nhật ký duyệt web bị xoá.

Danh sách chủ đề được trả về sẽ trống nếu:

  • Người dùng chọn không sử dụng Topics API thông qua chế độ cài đặt của trình duyệt tại chrome://settings/adPrivacy.
  • Người dùng đã xoá các chủ đề của họ (thông qua chế độ cài đặt của trình duyệt tại chrome://settings/adPrivacy) hoặc xoá cookie của họ.
  • Trình duyệt đang ở Chế độ ẩn danh.

Nội dung giải thích cung cấp thêm thông tin chi tiết về các mục tiêu về quyền riêng tư và cách API giải quyết các mục tiêu đó.

Chọn không sử dụng trang web

Ngoài khả năng người dùng chọn không sử dụng, bạn có thể chọn không sử dụng Chủ đề cho trang web của mình hoặc các trang trên trang web đó. Hướng dẫn cho nhà phát triển sẽ giải thích cách thực hiện.

Sử dụng Topics API trên các trang web có prebid.js

Như đã nêu trong bản phát hành Prebid 7, cộng đồng đã tích cực phát triển việc tích hợp với Topics API thông qua một mô-đun mới. Mô-đun này được hợp nhất vào tháng 12 năm 2022.

Tìm hiểu thêm tại đây:

  • Đọc tài liệu về mô-đun Topics API của Prebid.
  • Để biết thêm thông tin, hãy liên hệ với Prebid.js thông qua bất kỳ kênh chuẩn nào mà họ cung cấp.

Các bước tiếp theo

Thu hút và chia sẻ ý kiến phản hồi