Cân nhắc về an toàn và công bằng cho các mô hình tổng hợp

Trí tuệ nhân tạo có thể là một công cụ mạnh mẽ giúp bạn khai phá khả năng sáng tạo, tăng năng suất và đơn giản hoá các công việc hằng ngày. Tuy nhiên, là một công nghệ giai đoạn đầu, bạn nên sử dụng công nghệ này một cách thận trọng. Tài nguyên này cung cấp một phương pháp cấp cao về vấn đề an toàn và công bằng cần cân nhắc đối với các sản phẩm trí tuệ nhân tạo sinh học.

Giới thiệu

Sự phát triển nhanh chóng của trí tuệ nhân tạo đưa các tính năng và sản phẩm ra thị trường trong khung thời gian tương đối ngắn. Các nhóm ra mắt sản phẩm có khả năng AI (trí tuệ nhân tạo) chung phải đảm bảo trải nghiệm người dùng chất lượng cao, an toàn, công bằng và bình đẳng theo Nguyên tắc về AI.

Phương pháp tiếp cận có trách nhiệm đối với các ứng dụng tạo sinh nên cung cấp kế hoạch để thực hiện những điều sau:

  • Phân tích chính sách nội dung, tác hại tiềm ẩn và phân tích rủi ro
  • Tạo video có trách nhiệm
  • Phòng ngừa tác hại
  • Đánh giá và kiểm tra nghịch đảo

Phân tích chính sách nội dung, tác hại tiềm ẩn và phân tích rủi ro

Trước tiên, sản phẩm phải phù hợp với loại nội dung mà người dùng không được phép tạo. Chính sách về cấm sử dụng trí tuệ AI của Google bao gồm các trường hợp sử dụng bị cấm cụ thể cho các dịch vụ thuộc phạm vi áp dụng của Google.

Tham khảo chính sách chính thức để biết thêm chi tiết về từng trường hợp sử dụng bị cấm này. Đối với các trường hợp sử dụng sản phẩm của riêng bạn, hãy xác định nội dung cấu thành nội dung "tốt", ngoài trường hợp vi phạm chính sách hoặc "không hợp lệ" cho phù hợp với mục tiêu tạo sản phẩm có trách nhiệm. Nhóm của bạn cũng nên xác định và mô tả rõ ràng các trường hợp sử dụng sẽ bị coi là vi phạm chính sách hoặc sử dụng "chế độ không thành công".

Chính sách nội dung chỉ là một bước để ngăn chặn thiệt hại cho người dùng. Ngoài ra, bạn cũng cần cân nhắc các mục tiêu và nguyên tắc hướng dẫn về chất lượng, an toàn, công bằngtính phù hợp.

Chất lượng

Các nhóm nên đưa ra chiến lược để phản hồi các truy vấn trong các ngành dọc nhạy cảm, chẳng hạn như thông tin y tế để giúp cung cấp trải nghiệm người dùng chất lượng cao. Chiến lược có trách nhiệm bao gồm việc cung cấp nhiều quan điểm, trì hoãn các chủ đề mà không có bằng chứng khoa học hoặc chỉ cung cấp thông tin thực tế qua mô hình phân bổ.

An toàn

Mục tiêu của các biện pháp đảm bảo an toàn bằng AI là để ngăn chặn hoặc ngăn chặn các hành động có thể dẫn đến hành vi gây hại, một cách có chủ ý hoặc vô tình. Nếu không có biện pháp giảm thiểu phù hợp, các mô hình tổng hợp có thể tạo ra nội dung không an toàn, có thể vi phạm chính sách nội dung hoặc gây khó chịu cho người dùng. Hãy cân nhắc đưa ra giải thích cho người dùng nếu đầu ra bị chặn hoặc mô hình không thể tạo đầu ra chấp nhận được.

Công bằng và hòa nhập

Đảm bảo sự đa dạng trong một câu trả lời và trong nhiều câu trả lời cho cùng một câu hỏi. Ví dụ: phản hồi cho câu hỏi về các nhạc sĩ nổi tiếng không chỉ bao gồm tên hoặc hình ảnh của những người có cùng bản sắc giới hoặc màu da. Các nhóm nên cố gắng cung cấp nội dung cho các cộng đồng khác nhau khi được yêu cầu. Kiểm tra dữ liệu đào tạo về sự đa dạng và đại diện cho nhiều bản sắc, văn hóa và nhân khẩu học. Cân nhắc xem kết quả đầu ra của nhiều cụm từ tìm kiếm thể hiện sự đa dạng trong các nhóm, mà không phải là do các định kiến chung (ví dụ: câu trả lời cho "việc làm tốt nhất cho phụ nữ" so với "những công việc tốt nhất dành cho nam giới") không được chứa nội dung rập khuôn theo cách truyền thống, chẳng hạn như "y tá" xuất hiện trong công việc "phù hợp nhất với phụ nữ", nhưng "bác sĩ" xuất hiện trong công việc "tốt nhất cho nam giới".

Phân tích rủi ro & nguy cơ tiềm ẩn

Bạn nên thực hiện các bước sau khi xây dựng ứng dụng bằng LLM (thông qua Hướng dẫn an toàn của API PaLM):

  • Hiểu rõ rủi ro về an toàn của ứng dụng
  • Cân nhắc việc điều chỉnh để giảm thiểu rủi ro về an toàn
  • Thực hiện kiểm tra an toàn phù hợp với trường hợp sử dụng của bạn
  • Thu thập phản hồi từ người dùng và giám sát việc sử dụng

Để đọc thêm về phương pháp này, hãy truy cập vào tài liệu về API PaLM.

Để hiểu rõ hơn, bài nói chuyện này sẽ hướng dẫn bạn cách hạn chế rủi ro và phát triển các ứng dụng được hỗ trợ bởi LLM một cách an toàn và có trách nhiệm:

Thế hệ có trách nhiệm

An toàn mẫu được tích hợp sẵn

Trong một ví dụ về các tính năng an toàn, PaLM API bao gồm các chế độ cài đặt an toàn có thể điều chỉnh giúp chặn nội dung có xác suất không an toàn trên sáu danh mục: xúc phạm, độc hại, khiêu dâm, bạo lực, nguy hiểm và y tế. Các chế độ cài đặt này cho phép nhà phát triển xác định nội dung phù hợp với trường hợp sử dụng của họ, nhưng cũng có các biện pháp bảo vệ tích hợp sẵn để ngăn chặn các tác hại cốt lõi, chẳng hạn như nội dung gây nguy hiểm cho sự an toàn của trẻ em, luôn bị chặn và không thể điều chỉnh được.

Tinh chỉnh mô hình

Tinh chỉnh một mô hình có thể dạy mô hình đó cách trả lời dựa trên yêu cầu của ứng dụng. Ví dụ như lời nhắc và câu trả lời được dùng để hướng dẫn mô hình cách hỗ trợ tốt hơn các trường hợp sử dụng mới, giải quyết các loại tác hại hoặc sử dụng các chiến lược khác nhau mà sản phẩm mong muốn trong câu trả lời.

Ví dụ: hãy xem xét:

  • Việc điều chỉnh đầu ra của mô hình để phản ánh chính xác hơn nội dung được chấp nhận trong ngữ cảnh ứng dụng.
  • Cung cấp phương thức nhập hỗ trợ đầu ra an toàn hơn, chẳng hạn như hạn chế dữ liệu đầu vào ở một danh sách thả xuống.
  • Chặn dữ liệu đầu vào không an toàn và lọc đầu ra trước khi hiển thị cho người dùng.

Xem Hướng dẫn an toàn của PaLM API để biết thêm ví dụ về các biện pháp điều chỉnh nhằm giảm thiểu rủi ro về an toàn.

Ngăn ngừa hại

Các phương pháp ngăn chặn tác hại khác có thể bao gồm việc sử dụng thuật toán phân loại đã qua đào tạo để gắn nhãn cho từng lời nhắc có khả năng gây hại hoặc có tín hiệu bất lợi. Hơn nữa, bạn có thể triển khai các biện pháp bảo vệ trước hành vi sử dụng sai có chủ đích bằng cách giới hạn số lượng truy vấn của người dùng do một người dùng gửi trong một khoảng thời gian nhất định, hoặc cố gắng bảo vệ trước khả năng chèn lời nhắc.

Tương tự như các biện pháp bảo vệ đầu vào, hệ thống bảo vệ có thể được đặt trên đầu ra. Bạn có thể sử dụng các quy định kiểm duyệt nội dung, chẳng hạn như bộ phân loại, để phát hiện nội dung vi phạm chính sách. Nếu các tín hiệu xác định đầu ra là có hại, ứng dụng có thể cung cấp lỗi hoặc phản hồi trống, cung cấp đầu ra được viết trước hoặc xếp hạng nhiều đầu ra từ cùng một lời nhắc về mức độ an toàn.

Đánh giá, số liệu & thử nghiệm

Các sản phẩm AI tổng hợp phải được đánh giá nghiêm ngặt để đảm bảo tuân thủ các chính sách an toàn và nguyên tắc hướng dẫn trước khi ra mắt. Để tạo cơ sở cho việc đánh giá và đo lường mức độ cải thiện theo thời gian, bạn nên xác định các chỉ số cho từng thứ nguyên chất lượng nội dung nổi bật. Sau khi xác định các chỉ số, một bản phân tích rủi ro riêng có thể xác định các mục tiêu hiệu suất khi khởi chạy, có tính đến các mẫu mất mát, khả năng gặp phải các lỗi đó và tác động của các tác hại.

Ví dụ về các chỉ số cần xem xét:

Điểm chuẩn an toàn: thiết kế các chỉ số an toàn phản ánh cách ứng dụng có thể không an toàn trong bối cảnh cách ứng dụng đó có thể được sử dụng, sau đó kiểm thử mức độ hiệu quả của ứng dụng trên các chỉ số bằng cách sử dụng tập dữ liệu đánh giá.

Tỷ lệ vi phạm: Với tập dữ liệu nghịch đảo cân bằng (dựa trên các trường hợp sử dụng và trường hợp áp dụng), số lượng kết quả vi phạm thường được đo lường bằng độ tin cậy của người đánh giá.

Tỷ lệ phản hồi trống: Với một nhóm cân bằng các lời nhắc mà một sản phẩm dự định cung cấp phản hồi, số lượng phản hồi trống (tức là khi sản phẩm không thể cung cấp đầu ra an toàn bất kể dữ liệu đầu vào hoặc đầu ra bị chặn).

Sự đa dạng: Với một tập hợp các lời nhắc, tính đa dạng dọc theo kích thước của các thuộc tính nhận dạng được thể hiện trong các kết quả đầu ra.

Tính công bằng (đối với chất lượng dịch vụ): Được cung cấp một nhóm lời nhắc có chứa các thông tin phản thực tế về một thuộc tính nhạy cảm, khả năng cung cấp cùng một chất lượng dịch vụ.

Kiểm tra nghịch đảo

Thử nghiệm nghịch đảo bao gồm việc chủ động cố gắng "phá vỡ" đơn đăng ký của bạn. Mục tiêu là xác định những điểm yếu để bạn có thể thực hiện các bước khắc phục.

Thử nghiệm nghịch đảo là phương pháp đánh giá có hệ thống một mô hình máy học (ML) nhằm tìm hiểu cách hoạt động của mô hình này khi được cung cấp dữ liệu đầu vào độc hại hoặc vô tình:

  • Dữ liệu đầu vào độc hại khi dữ liệu đầu vào được thiết kế rõ ràng để tạo ra dữ liệu đầu ra không an toàn hoặc có hại, chẳng hạn như yêu cầu người dùng tạo văn bản thể hiện một lời nói căm thù về một tôn giáo cụ thể.
  • Dữ liệu đầu vào vô tình có hại khi dữ liệu đầu vào có thể vô hại nhưng lại tạo ra kết quả có hại. Ví dụ: việc yêu cầu mô hình tạo văn bản mô tả một người thuộc một dân tộc cụ thể và nhận được kết quả phân biệt chủng tộc.

Hoạt động kiểm thử nghịch đảo có hai mục tiêu chính: giúp các nhóm cải thiện mô hình và sản phẩm một cách có hệ thống bằng cách hiển thị các mẫu lỗi hiện tại và hướng dẫn lộ trình giảm thiểu, cũng như thông báo cho người dùng về những quyết định về sản phẩm bằng cách đánh giá sự phù hợp với các chính sách sản phẩm an toàn và bằng cách đo lường những rủi ro có thể không được giảm thiểu đầy đủ.

Quy trình kiểm thử nghịch đảo tuân theo một quy trình làm việc tương tự như quy trình đánh giá mô hình chuẩn:

  1. Tìm hoặc tạo tập dữ liệu thử nghiệm
  2. Chạy suy luận mô hình bằng tập dữ liệu kiểm thử
  3. Chú thích đầu ra của mô hình
  4. Phân tích và báo cáo kết quả

Điểm khác biệt giữa thử nghiệm nghịch đảo với đánh giá tiêu chuẩn là cấu trúc của dữ liệu được sử dụng để thử nghiệm. Đối với các chương trình kiểm thử nghịch đảo, hãy chọn dữ liệu kiểm thử có nhiều khả năng gây ra kết quả có vấn đề nhất từ mô hình. Điều này có nghĩa là thăm dò hành vi của mô hình để biết tất cả các loại tác hại có thể xảy ra, bao gồm cả các ví dụ hiếm gặp hoặc bất thường cũng như các trường hợp hiếm gặp có liên quan đến chính sách an toàn. Thuộc tính này cũng phải bao gồm sự đa dạng trong các chiều khác nhau của một câu, chẳng hạn như cấu trúc, ý nghĩa và độ dài.