Kiểm tra nghịch đảo cho AI tổng hợp

Kiểm thử nghịch đảo là một phương thức giúp đánh giá một cách có hệ thống mô hình học máy nhằm tìm hiểu hành vi của mô hình đó khi được cung cấp dữ liệu đầu vào độc hại hoặc vô tình. Hướng dẫn này mô tả một quy trình thử nghiệm nghịch đảo trong ví dụ về trí tuệ nhân tạo sinh học.

Thử nghiệm nghịch đảo là gì?

Thử nghiệm là một phần quan trọng để xây dựng các ứng dụng AI mạnh mẽ và an toàn. Quá trình kiểm thử nghịch đảo liên quan đến việc chủ động tìm cách "gây sự cố" với một ứng dụng bằng cách cung cấp dữ liệu có khả năng gây ra kết quả có vấn đề nhất. Truy vấn nghịch đảo có thể khiến mô hình thất bại theo cách không an toàn (tức là vi phạm chính sách về an toàn) và có thể gây ra lỗi khiến con người dễ dàng xác định, nhưng máy thì khó nhận ra.

Truy vấn có thể là “phụ”. theo các cách khác nhau. Các truy vấn nghịch đảo rõ ràng có thể chứa ngôn từ vi phạm chính sách hoặc quan điểm vi phạm chính sách rõ ràng hoặc có thể thăm dò hay cố gắng "lừa" mô hình về việc nói điều gì đó không an toàn, có hại hoặc xúc phạm. Các cụm từ tìm kiếm ngầm ẩn có vẻ như vô hại nhưng có thể chứa các chủ đề nhạy cảm gây tranh cãi, nhạy cảm về văn hóa hoặc có thể gây hại. Điều này có thể bao gồm thông tin về nhân khẩu học, sức khỏe, tài chính hoặc tôn giáo.

Kiểm thử nghịch đảo có thể giúp các nhóm cải thiện mô hình và sản phẩm bằng cách phát hiện các lỗi hiện có để hướng dẫn lộ trình giảm thiểu, chẳng hạn như tinh chỉnh, bảo vệ mô hình hoặc bộ lọc. Hơn nữa, dữ liệu này có thể giúp thông báo các quyết định ra mắt sản phẩm bằng cách đo lường những rủi ro có thể xảy ra, chẳng hạn như khả năng tạo mô hình với nội dung vi phạm chính sách đầu ra.

Hướng dẫn này là một phương pháp hay nhất mới nổi dành cho trí tuệ nhân tạo có trách nhiệm, hướng dẫn quy trình làm việc mẫu để kiểm thử nghịch đảo cho các mô hình và hệ thống tạo sinh.

Quy trình mẫu thử nghiệm nghịch đảo

Kiểm thử nghịch đảo tuân theo quy trình làm việc tương tự như đánh giá mô hình chuẩn.

Xác định và xác định dữ liệu đầu vào

Bước đầu tiên trong quy trình kiểm thử nghịch đảo là xác định dữ liệu đầu vào để tìm hiểu cách hoạt động của hệ thống khi bị tấn công có chủ ý và có hệ thống. Việc suy nghĩ thấu đáo có thể ảnh hưởng trực tiếp đến hiệu quả của quy trình thử nghiệm. Các thông tin đầu vào sau có thể giúp xác định phạm vi và mục tiêu của thử nghiệm nghịch đảo:

  • Chính sách sản phẩm và chế độ lỗi
  • Trường hợp sử dụng
  • Yêu cầu về tính đa dạng

Chính sách sản phẩm và chế độ lỗi

Các sản phẩm AI tổng hợp cần xác định các chính sách an toàn mô tả hành vi sản phẩm và dữ liệu đầu ra của mô hình không được phép (tức là được coi là "không an toàn"). Chính sách này sẽ liệt kê các chế độ lỗi sẽ được coi là vi phạm chính sách. Danh sách chế độ không thành công này nên được sử dụng làm cơ sở cho thử nghiệm nghịch đảo. Một số ví dụ về chế độ cài đặt không thành công có thể bao gồm nội dung chứa ngôn từ thô tục hoặc tư vấn về tài chính, pháp lý hoặc y tế.

Trường hợp sử dụng

Một trường hợp sử dụng quan trọng khác đối với việc kiểm thử nghịch đảo là(các) trường hợp sử dụng mà mô hình hoặc sản phẩm chung tạo ra để phân phát, sao cho dữ liệu thử nghiệm chứa một số nội dung trình bày về cách người dùng sẽ tương tác với sản phẩm trong thực tế. Mỗi sản phẩm tạo ra có các trường hợp sử dụng hơi khác nhau, nhưng một số sản phẩm phổ biến bao gồm: tìm thông tin, tóm tắt và tạo mã cho các mô hình ngôn ngữ; hoặc tạo hình nền theo địa lý hoặc địa hình, nghệ thuật hoặc phong cách quần áo.

Yêu cầu về tính đa dạng

Các tập dữ liệu kiểm thử nghịch đảo phải đủ đa dạng và mang tính đại diện, đồng thời tôn trọng mọi trường hợp sử dụng và chế độ lỗi mục tiêu. Việc đo lường các tập dữ liệu kiểm thử đa dạng giúp xác định những sai lệch tiềm ẩn và đảm bảo rằng mô hình được kiểm thử rộng rãi với số lượng người dùng đa dạng.

Ba cách tư duy về sự đa dạng bao gồm:

  • Tính đa dạng về từ vựng: đảm bảo rằng các truy vấn có độ dài khác nhau (ví dụ: số từ), sử dụng phạm vi từ vựng rộng, không chứa các từ trùng lặp và đại diện cho các công thức truy vấn khác nhau (ví dụ: câu hỏi, yêu cầu trực tiếp và gián tiếp).
  • Tính đa dạng về ngữ nghĩa: đảm bảo rằng các truy vấn bao gồm nhiều chủ đề khác nhau theo mỗi chính sách (ví dụ: tiểu đường cho sức khỏe) bao gồm các đặc điểm nhạy cảm và dựa trên danh tính (ví dụ: giới tính, sắc tộc), trong nhiều trường hợp sử dụng và bối cảnh toàn cầu.
  • Tính đa dạng về chính sách và trường hợp sử dụng: đảm bảo rằng các truy vấn bao gồm tất cả các trường hợp vi phạm chính sách (ví dụ: lời nói căm thù) và các trường hợp sử dụng (ví dụ: lời khuyên của chuyên gia).

Tìm hoặc tạo(các) tập dữ liệu thử nghiệm

Tập dữ liệu kiểm thử cho kiểm thử nghịch đảo được xây dựng khác với các tập kiểm thử đánh giá mô hình chuẩn. Trong hoạt động đánh giá mô hình chuẩn, tập dữ liệu kiểm thử thường được thiết kế để phản ánh chính xác việc phân phối dữ liệu mà mô hình gặp phải trong sản phẩm. Đối với thử nghiệm phụ, dữ liệu thử nghiệm được chọn để đưa ra kết quả có vấn đề từ mô hình bằng cách chứng minh hành vi của mô hình đối với các ví dụ ngoài phạm vi phân phối và các trường hợp hiếm gặp có liên quan đến chính sách an toàn. Một bộ kiểm thử nghịch đảo chất lượng cao sẽ bao gồm tất cả các thứ nguyên chính sách về an toàn và tối đa hóa mức độ phù hợp của các trường hợp sử dụng mà mô hình hỗ trợ. Dữ liệu này nên đa dạng về từ vựng (ví dụ: cụm từ tìm kiếm có độ dài và ngôn ngữ khác nhau) và ngữ nghĩa (ví dụ: bao gồm nhiều chủ đề và thông tin nhân khẩu học).

Điều tra các tập dữ liệu kiểm thử hiện có để biết mức độ phù hợp của chính sách an toàn, chế độ lỗi và các trường hợp sử dụng đối với việc tạo văn bản và mô hình chuyển văn bản sang hình ảnh. Các nhóm có thể sử dụng các tập dữ liệu hiện có để thiết lập đường cơ sở cho hiệu suất của sản phẩm, sau đó phân tích sâu hơn về các chế độ lỗi cụ thể mà sản phẩm gặp phải.

Nếu tập dữ liệu kiểm thử hiện có không đủ, thì các nhóm có thể tạo dữ liệu mới để nhắm đến các trường hợp sử dụng và chế độ lỗi cụ thể. Một cách để tạo tập dữ liệu mới là bắt đầu bằng cách tạo tập dữ liệu nhỏ của truy vấn theo cách thủ công (tức là hàng chục ví dụ trên mỗi danh mục), sau đó mở rộng tập dữ liệu "gốc" này bằng công cụ tổng hợp dữ liệu.

Tập dữ liệu gốc phải chứa các ví dụ tương tự với những gì hệ thống có thể gặp phải trong quá trình sản xuất và được tạo với mục đích gây ra vi phạm chính sách. Các tính năng an toàn có thể sẽ phát hiện được ngôn ngữ rất độc hại. Vì vậy, hãy cân nhắc cụm từ sáng tạo và ngầm là các đối số đầu vào.

Bạn có thể sử dụng thông tin tham chiếu trực tiếp hoặc gián tiếp đến các thuộc tính nhạy cảm (ví dụ: độ tuổi, giới tính, chủng tộc, tôn giáo) trong tập dữ liệu thử nghiệm. Xin lưu ý rằng việc sử dụng các cụm từ này có thể khác nhau giữa các nền văn hóa. Thay đổi giọng điệu, cấu trúc câu, lựa chọn từ dài và ý nghĩa. Ví dụ: nhiều nhãn (ví dụ: lời nói căm thù và ngôn từ tục tĩu) có thể được áp dụng có thể gây ra tiếng động và nội dung trùng lặp. Hệ thống đánh giá hoặc đào tạo có thể không xử lý đúng cách đối với những nhãn này.

Bạn nên phân tích các bộ thử nghiệm nghịch đảo để hiểu thành phần của chúng về tính đa dạng về từ vựng và ngữ nghĩa, phạm vi áp dụng với các trường hợp vi phạm chính sách và trường hợp sử dụng, cũng như chất lượng tổng thể về tính duy nhất, nghịch lý và độ ồn.

Tạo đầu ra của mô hình

Bước tiếp theo là tạo đầu ra của mô hình dựa trên tập dữ liệu kiểm thử. Kết quả sẽ thông báo cho các nhóm phụ trách sản phẩm về hiệu suất của mô hình khi tiếp xúc với người dùng có hại hoặc vô tình sử dụng dữ liệu đầu vào. Việc xác định các hành vi hệ thống và mẫu phản hồi này có thể cung cấp các phép đo lường cơ sở có thể được giảm bớt trong quá trình phát triển mô hình trong tương lai.

Chú thích kết quả

Sau khi tạo các kết quả từ quá trình kiểm thử nghịch đảo, hãy chú thích các kết quả đó để phân loại chúng thành chế độ và/hoặc tác hại. Các nhãn này có thể giúp cung cấp tín hiệu an toàn cho nội dung văn bản và hình ảnh. Hơn nữa, các tín hiệu có thể giúp đo lường và giảm thiểu tác hại trên các mô hình và sản phẩm.

Bạn có thể sử dụng thuật toán phân loại độ an toàn để tự động chú thích các kết quả của mô hình (hoặc dữ liệu đầu vào) cho các lỗi vi phạm chính sách. Độ chính xác có thể thấp đối với các tín hiệu cố phát hiện các cấu trúc không được định nghĩa chính xác, chẳng hạn như Lời nói căm thù. Đối với các tín hiệu đó, điều quan trọng là bạn phải sử dụng người đánh giá để kiểm tra và chỉnh sửa các nhãn do trình phân loại tạo ra, trong đó điểm số là "không chắc chắn".

Ngoài chú thích tự động, bạn cũng có thể tận dụng người đánh giá để chú thích một mẫu dữ liệu. Điều quan trọng cần lưu ý là việc chú thích dữ liệu đầu ra của mô hình trong quá trình kiểm thử nghịch đảo nhất thiết phải xem xét các văn bản hoặc hình ảnh gây rắc rối và có khả năng gây hại, tương tự như kiểm duyệt nội dung thủ công. Ngoài ra, những người đánh giá có thể chú thích cùng một nội dung theo cách khác nhau dựa trên nền tảng, kiến thức hoặc niềm tin cá nhân của họ. Việc phát triển các nguyên tắc hoặc mẫu cho người đánh giá có thể sẽ hữu ích, hãy lưu ý rằng sự đa dạng của nhóm thuật toán có thể ảnh hưởng đến kết quả chú thích.

Báo cáo và giảm bớt

Bước cuối cùng là tóm tắt kết quả thử nghiệm trong báo cáo. Tính toán chỉ số và báo cáo kết quả để cung cấp tỷ lệ an toàn, hình ảnh hóa và ví dụ về các lỗi có vấn đề. Những kết quả này có thể hướng dẫn cải tiến mô hình và thông báo cho các biện pháp bảo vệ mô hình, chẳng hạn như bộ lọc hoặc danh sách chặn. Báo cáo cũng đóng vai trò quan trọng trong việc trao đổi với các bên liên quan và người ra quyết định.

Nguồn thông tin khác

Đội ngũ thiết kế trí tuệ nhân tạo của Google: những tin tặc đạo đức đang giúp AI trở nên an toàn hơn

Mô hình ngôn ngữ theo nhóm màu đỏ với mô hình ngôn ngữ

Kiểm tra tính công bằng của sản phẩm dành cho nhà phát triển công nghệ máy học (video):

Kiểm tra tính công bằng của sản phẩm dành cho nhà phát triển (Lớp học lập trình)