Pertimbangan Keselamatan & Keadilan untuk Model Generatif

AI generatif dapat menjadi alat yang canggih dalam membuka kreativitas, meningkatkan produktivitas, dan menyederhanakan tugas sehari-hari. Namun, sebagai teknologi tahap awal, teknologi ini harus digunakan dengan tindakan pencegahan yang sesuai. Referensi ini memberikan pendekatan tingkat tinggi untuk pertimbangan keamanan dan keadilan bagi produk AI generatif.

Pengantar

Perkembangan pesat AI generatif telah menghadirkan fitur dan produk ke pasar dalam jangka waktu yang relatif singkat. Tim yang meluncurkan produk dengan kemampuan AI generatif harus bertujuan untuk memastikan pengalaman pengguna yang berkualitas tinggi, aman, adil, dan yang adil sesuai dengan Prinsip AI.

Pendekatan yang bertanggung jawab untuk aplikasi generatif harus memberikan rencana untuk mencapai hal-hal berikut:

  • Analisis kebijakan, potensi bahaya, dan risiko konten
  • Pembuatan yang bertanggung jawab
  • Pencegahan bahaya
  • Evaluasi dan pengujian berlawanan

Analisis Konten, Potensi Kerugian, dan Analisis Risiko

Produk harus terlebih dahulu sesuai dengan jenis konten yang tidak boleh dibuat oleh pengguna. Kebijakan Penggunaan Terlarang AI Generatif AI mencakup kasus penggunaan terlarang tertentu untuk layanan Google yang dicakup.

Lihat kebijakan resmi untuk mengetahui detail selengkapnya tentang setiap kasus penggunaan terlarang ini. Untuk kasus penggunaan produk Anda sendiri, tentukan konten yang dianggap sebagai konten yang "baik", di luar tidak adanya pelanggaran kebijakan, atau "tidak baik", agar selaras dengan sasaran untuk pembuatan konten yang bertanggung jawab. Tim Anda juga harus menentukan dan mendeskripsikan kasus penggunaan dengan jelas yang akan dianggap sebagai pelanggaran kebijakan atau menggunakan "mode kegagalan".

Kebijakan konten hanyalah satu langkah dalam mencegah bahaya bagi pengguna. Penting juga untuk mempertimbangkan sasaran dan prinsip panduan untuk kualitas, keamanan, keadilan, dan penyertaan.

Kualitas

Tim harus merancang strategi untuk merespons kueri di vertical sensitif seperti informasi medis guna membantu memberikan pengalaman pengguna berkualitas tinggi. Strategi yang bertanggung jawab meliputi penyediaan beberapa sudut pandang, menunda topik tanpa bukti ilmiah, atau hanya memberikan informasi faktual dengan atribusi.

Keamanan

Tujuan langkah-langkah keamanan AI adalah mencegah atau berisi tindakan yang dapat menyebabkan bahaya, baik secara sengaja maupun tidak. Tanpa mitigasi yang sesuai, model generatif dapat menghasilkan konten tidak aman yang mungkin melanggar kebijakan konten atau menyebabkan ketidaknyamanan bagi pengguna. Pertimbangkan untuk memberikan penjelasan kepada pengguna jika output diblokir atau model tidak dapat menghasilkan output yang dapat diterima.

Keadilan & Inklusi

Pastikan keragaman dalam satu respons dan beberapa respons untuk pertanyaan yang sama. Misalnya, jawaban atas pertanyaan tentang musisi terkenal tidak boleh hanya menyertakan nama atau foto orang dengan identitas gender atau warna kulit yang sama. Tim harus berusaha menyediakan konten untuk komunitas yang berbeda saat diminta. Periksa data pelatihan untuk keberagaman dan representasi di berbagai identitas, budaya, dan demografi. Pertimbangkan bagaimana output atas beberapa kueri mewakili keberagaman dalam grup, tanpa mempertahankan stereotip umum (misalnya, respons terhadap "pekerjaan terbaik untuk perempuan" dibandingkan dengan "pekerjaan terbaik bagi pria" tidak boleh berisi konten stereotip tradisional, seperti "perawat" yang muncul di bawah "pekerjaan terbaik untuk wanita", tetapi "dokter" muncul di bawah "pekerjaan terbaik untuk pria").

Analisis Potensi Risiko & Risiko

Langkah-langkah berikut direkomendasikan saat mem-build aplikasi dengan LLM (melalui Panduan keselamatan PaLM API):

  • Memahami risiko keamanan aplikasi Anda
  • Mempertimbangkan penyesuaian untuk mengurangi risiko keamanan
  • Melakukan pengujian keamanan yang sesuai dengan kasus penggunaan Anda
  • Meminta masukan dari pengguna dan memantau penggunaan

Untuk membaca selengkapnya tentang pendekatan ini, kunjungi dokumentasi PaLM API.

Untuk pembahasan lebih mendalam, pembahasan ini akan membahas panduan untuk membatasi risiko dan mengembangkan aplikasi yang didukung LLM yang aman dan bertanggung jawab:

Generasi yang Bertanggung Jawab

Keamanan Model Bawaan

Dalam salah satu contoh fitur keselamatan, PaLM API menyertakan setelan keamanan yang dapat disesuaikan untuk memblokir konten yang memiliki kemungkinan penyesuaian yang tidak aman dalam enam kategori: penghinaan, toksik, seksual, kekerasan, berbahaya, dan medis. Setelan ini memungkinkan developer menentukan apa yang sesuai untuk kasus penggunaan mereka, tetapi juga memiliki perlindungan bawaan terhadap bahaya inti, seperti konten yang membahayakan keselamatan anak, yang selalu diblokir dan tidak dapat disesuaikan.

Penyesuaian Model

Menyesuaikan model dapat mengajarinya cara menjawab berdasarkan persyaratan aplikasi. Contoh perintah dan jawaban digunakan untuk mengajarkan model cara mendukung kasus penggunaan baru dengan lebih baik, mengatasi jenis bahaya, atau memanfaatkan berbagai strategi yang diinginkan oleh produk dalam balasan.

Misalnya, pertimbangkan:

  • Menyesuaikan output model agar lebih mencerminkan hal yang dapat diterima dalam konteks aplikasi Anda.
  • Menyediakan metode input yang memfasilitasi output yang lebih aman, seperti membatasi input ke daftar dropdown.
  • Memblokir input yang tidak aman dan memfilter output sebelum ditampilkan kepada pengguna.

Lihat Panduan keselamatan PaLM API untuk contoh penyesuaian lainnya guna mengurangi risiko keamanan.

Pencegahan Kekerasan

Metode tambahan pencegahan bahaya dapat mencakup penggunaan pengklasifikasi terlatih untuk memberi label setiap perintah dengan potensi bahaya atau sinyal penyerang. Selain itu, Anda dapat menerapkan perlindungan dari penyalahgunaan yang disengaja dengan membatasi volume kueri pengguna yang dikirim oleh satu pengguna dalam jangka waktu tertentu, atau mencoba melindungi dari kemungkinan injeksi permintaan.

Serupa dengan perlindungan input, pelindung dapat ditempatkan pada output. Perlindungan moderasi konten, seperti pengklasifikasi, dapat digunakan untuk mendeteksi konten yang melanggar kebijakan. Jika sinyal menentukan bahwa output tersebut berbahaya, aplikasi dapat memberikan error atau respons kosong, memberikan output yang telah ditulis sebelumnya, atau menentukan peringkat beberapa output dari permintaan yang sama demi keamanan.

Evaluasi, Metrik & Pengujian

Produk AI generatif harus dievaluasi secara ketat untuk memastikan kesesuaiannya dengan kebijakan keselamatan dan prinsip panduan sebelum peluncuran. Untuk membuat dasar pengukuran dan mengevaluasi peningkatan dari waktu ke waktu, metrik harus ditentukan untuk setiap dimensi kualitas konten yang penting. Setelah metrik ditentukan, analisis risiko yang terpisah dapat menentukan target performa untuk peluncuran, dengan mempertimbangkan pola kerugian, seberapa mungkin target tersebut akan ditemukan, dan dampak dari bahaya.

Contoh metrik yang perlu dipertimbangkan:

Tolok ukur keamanan: mendesain metrik keamanan yang mencerminkan cara aplikasi Anda mungkin tidak aman dalam konteks kemungkinan penggunaan, lalu menguji seberapa baik performa aplikasi Anda pada metrik menggunakan set data evaluasi.

Rasio pelanggaran: Dengan set data berlawanan yang seimbang (di seluruh bahaya dan kasus penggunaan yang berlaku), jumlah output yang melanggar, biasanya diukur berdasarkan keandalan perantara.

Rasio respons kosong: Dengan mempertimbangkan kumpulan perintah seimbang yang ingin diberikan produk untuk memberikan respons, jumlah respons kosong (yaitu, saat produk tidak dapat memberikan output yang aman, terlepas dari input atau output yang diblokir).

Keberagaman: Dengan serangkaian perintah, keragaman di sepanjang dimensi atribut identitas yang direpresentasikan dalam output.

Keadilan (untuk kualitas layanan): Dengan serangkaian perintah yang berisi kontrafaktual atribut sensitif, kemampuan untuk memberikan kualitas layanan yang sama.

Pengujian Lawan

Pengujian berlawanan melibatkan secara proaktif upaya untuk "menghancurkan" aplikasi Anda. Tujuannya adalah mengidentifikasi titik kelemahan agar Anda dapat mengambil langkah untuk mengatasinya.

Pengujian berlawanan adalah metode untuk mengevaluasi model ML secara sistematis dengan tujuan untuk mempelajari perilakunya saat diberikan dengan input yang berbahaya atau tidak disengaja:

  • Input berbahaya jika input didesain dengan jelas untuk menghasilkan output yang tidak aman atau berbahaya – misalnya, meminta model pembuatan teks untuk menghasilkan ocehan tentang agama tertentu.
  • Input secara tidak sengaja berbahaya jika input itu sendiri mungkin tidak berbahaya, tetapi menghasilkan output berbahaya – misalnya, meminta model pembuatan teks untuk menggambarkan seseorang dari etnis tertentu dan menerima output rasialis.

Pengujian berlawanan memiliki dua tujuan utama: untuk membantu tim meningkatkan model dan produk secara sistematis dengan mengekspos pola kegagalan saat ini, dan memandu jalur mitigasi, serta menginformasikan keputusan produk dengan menilai keselarasan dengan kebijakan keamanan produk dan dengan mengukur risiko yang mungkin tidak mitigasi sepenuhnya.

Pengujian berlawanan mengikuti alur kerja yang mirip dengan evaluasi model standar:

  1. Menemukan atau membuat set data pengujian
  2. Jalankan inferensi model menggunakan set data pengujian
  3. Anotasi output model
  4. Menganalisis dan melaporkan hasil

Yang membedakan pengujian pesaing dengan evaluasi standar adalah komposisi data yang digunakan untuk pengujian. Untuk pengujian yang berlawanan, pilih data pengujian yang paling mungkin mendapatkan output yang bermasalah dari model. Artinya, Anda perlu memeriksa perilaku model untuk semua jenis bahaya yang mungkin terjadi, termasuk contoh yang jarang atau tidak biasa dan kasus ekstrem yang relevan dengan kebijakan keselamatan. Ini juga harus mencakup keragaman dalam dimensi yang berbeda dari suatu kalimat seperti struktur, arti, dan panjang.