Oluşturma Modelleri İçin Güvenlik ve Adaletle İlgili Dikkat Edilmesi Gereken Noktalar

Jenerik AI, yaratıcılığın kilidini açma, verimliliği artırma ve günlük işleri basitleştirme konusunda güçlü bir araç olabilir. Ancak erken aşamadaki bir teknoloji olarak, gerekli önlemlerle birlikte kullanılmalıdır. Bu kaynak, üretim yapan yapay zeka ürünleri için güvenlik ve adalet konusunda üst düzey bir yaklaşım sağlar.

Giriş

Jenerik yapay zekanın hızla geliştirilmesi, özellikleri ve ürünleri nispeten kısa zaman aralıklarında piyasaya sunmuştur. Akıllı yapay zeka özelliklerine sahip ürünler kullanıma sunan ekipler, AI İlkeleri'ne uygun yüksek kaliteli, güvenli, adil ve eşitlikçi kullanıcı deneyimlerini sağlamayı hedeflemelidir.

Oluşturma uygulamaları için sorumlu bir yaklaşım, aşağıdakileri sunmaya yönelik planlar sunmalıdır:

  • İçerik politikaları, potansiyel zararlar ve risk analizi
  • Sorumluluk bilinciyle içerik üretimi
  • Zarar önleme
  • Değerlendirme ve kötü amaçlı testler

İçerik Politikaları, Olası Zararlılıklar ve Risk Analizi

Ürünler öncelikle kullanıcıların oluşturmasına izin verilmeyen içerik türleriyle uyumlu olmalıdır. Google'ın Oluşturucu AI Yasaklanmış Kullanım Politikası, kapsanan Google hizmetleri için belirli yasaklı kullanım alanlarını içerir.

Yasaklanan bu kullanım alanlarının her biriyle ilgili daha ayrıntılı bilgi için resmi politikayı inceleyin. Kendi ürün kullanım alanlarınız için politikaları ihlal eden hedeflere uygun hareket etmek amacıyla, neyin "iyi" içerik, "politika ihlali" veya "kötü" olarak kabul edildiğini tanımlayın. Ekibiniz, politika ihlali olarak değerlendirilecek veya "hata modlarını" kullanacak kullanım alanlarını da net bir şekilde tanımlamalıdır.

İçerik politikaları, kullanıcıların zarar görmesini önlemenin yalnızca bir adımıdır. Kalite, güvenlik, adillik ve dahil etme konusunda hedefleri ve yol gösterici ilkeleri de göz önünde bulundurmak önemlidir.

Kalite

Ekipler, yüksek kaliteli kullanıcı deneyimleri sağlamak için tıbbi sektörler gibi hassas sektörlerdeki sorguları yanıtlamaya yönelik stratejiler geliştirmelidir. Sorumluluk stratejilerine birden fazla bakış açısı eklemek, konuları bilimsel kanıtlar olmadan ertelemek veya yalnızca gerçeklere atıfta bulunarak bilgi sağlamak dahildir.

Güvenlik

AI güvenlik önlemlerinin amacı, kasıtlı olarak veya istemeden zarar verebilecek işlemlere karşı koruma sağlamaktır. Oluşturma araçları, uygun önlemler alınmadığı takdirde, içerik politikalarını ihlal edebilecek veya kullanıcılara rahatsızlık verecek güvenli olmayan içerikler üretebilir. Bir çıkış engellendiyse veya model kabul edilebilir bir çıkış üretemiyorsa kullanıcılara açıklamalar sağlayabilirsiniz.

Adalet ve Kapsayıcılık

Aynı soru için bir yanıtta ve birden fazla yanıtta çeşitlilik sağlayın. Örneğin, ünlü müzisyenlerle ilgili bir soruya verilen yanıt, sadece aynı cinsiyetten veya ten rengine sahip kişilerin adlarını ya da resimlerini içermemelidir. Ekipler, talep edildiğinde farklı topluluklar için içerik sağlamaya çalışmalıdır. Farklı kimlikler, kültürler ve demografik gruplarda çeşitlilik ve temsil için eğitim verilerini inceleyin. Birden fazla sorguda üretilen çıkışların gruplardaki çeşitliliği nasıl temsil ettiğini düşünün.Örneğin, basmakalıp kalıplar kullanılmaya devam edebilir (ör. "erkekler için en iyi iş"e kıyasla "erkekler için en iyi işler" yanıtı, "kadınlar için en iyi işler" altında "hemşire" ve "erkekler için en iyi işler" altında gösterilen "doktor").

Olası Zararlı ve Risk Analizi

LLM'lerle uygulama oluştururken aşağıdaki adımlar önerilir (PaLM API Güvenlik kılavuzu aracılığıyla):

  • Uygulamanızın güvenlik risklerini anlama
  • Güvenlik risklerini azaltmak için düzenlemeler yapma
  • Kullanım alanınıza uygun güvenlik testleri gerçekleştirme
  • Kullanıcılardan geri bildirim isteme ve kullanımı izleme

Bu yaklaşım hakkında daha fazla bilgi edinmek için PaLM API'si dokümanlarını ziyaret edin.

Bu konuşmada, riskleri ortadan kaldırma ve güvenli ve sorumlu LLM destekli uygulamalar geliştirmeyle ilgili yol gösterici bilgiler ele alınmaktadır:

Sorumlu Üretim

Yerleşik Model Güvenliği

Güvenlik özelliklerine bir örnekte PaLM API, altı kategoride güvenli olma olasılığı olan içerikleri engelleyen ayarlanabilir güvenlik ayarları içerir: aşağılayıcı, zehirli, cinsel, şiddet içeren, tehlikeli ve tıbbi. Bu ayarlar, geliştiricilerin kullanım alanları için neyin uygun olduğunu belirlemesine olanak tanır. Bununla birlikte, her zaman engellenen ve düzenlenemeyen çocuk güvenliğini tehlikeye atan içerikler gibi temel zararlara karşı yerleşik korumalara da sahiptir.

Model Ayarlama

Bir modelde ince ayar yapmak, uygulama gereksinimlerine göre nasıl yanıt verileceğini öğretebilir. Örnek istemler ve yanıtlar, bir modele yeni kullanım alanlarını, zarar türlerini ele almayı veya yanıtta ürünün istediği farklı stratejilerden nasıl daha iyi yararlanabileceğini öğretmek için kullanılır.

Örneğin:

  • Model çıktısını, uygulama bağlamınızda kabul edilebilir olanları daha iyi yansıtacak şekilde ayarlama.
  • Daha güvenli çıkışları kolaylaştıran bir giriş yöntemi sağlamak (ör. girişleri bir açılır listeyle sınırlamak).
  • Güvenli olmayan girişleri engelleme ve çıkışı kullanıcıya göstermeden önce filtreleme.

Güvenlik risklerini azaltmaya yönelik daha fazla örnek için PaLM API'nin Güvenlik kılavuzuna bakın.

Zararları Önleme

Zararları önlemenin diğer yöntemleri, her bir istemi olası zararlarla veya zararlı sinyallerle etiketlemek için eğitimli sınıflandırıcılar kullanmak olabilir. Bununla birlikte, belirli bir dönemde tek bir kullanıcı tarafından gönderilen kullanıcı sorgularının hacmini sınırlandırarak kasten hatalı kullanıma karşı korumalar uygulayabilir veya olası enjeksiyona karşı koruma sağlamaya çalışabilirsiniz.

Giriş korumalarına benzer şekilde, çıkışlara da koruyucular yerleştirilebilir. Sınıflandırıcı gibi içerik moderasyonları, politikaları ihlal eden içerikleri tespit etmek için kullanılabilir. Sinyaller, sonucun zararlı olduğunu belirlerse uygulama bir hata veya boş yanıt sağlayabilir, önceden tanımlanmış bir çıkış sağlayabilir veya aynı güvenlik isteminden birden fazla çıkışı sıralayabilir.

Değerlendirme, Metrikler ve Test

Üretici yapay zeka ürünleri, güvenlik politikaları ve kılavuz ilkelere uygun olduklarından emin olmak için titizlikle değerlendirilmelidir. Değerlendirmeye temel oluşturmak ve zamanla iyileşmeyi ölçmek amacıyla metrikler, her önemli içerik kalitesi boyutu için tanımlanmalıdır. Metrikler tanımlandıktan sonra kayıp kalıpları, karşılaşılma olasılıkları ve zararların etkisi dikkate alınarak lansmanla ilgili performans hedefleri ayrı bir risk analiziyle belirlenebilir.

Değerlendirilmesi gereken metriklere örnekler:

Güvenlik karşılaştırmaları: Uygulamanızın kullanılma olasılığı bağlamında güvenli olmayan yolları yansıtan tasarım güvenliği metrikleri, ardından uygulamanızın veri kümelerini kullanarak metriklerde ne kadar iyi performans gösterdiğini test edin.

İhlal oranı: Dengeli bir sakıncalı veri kümesi (geçerli zararlar ve kullanım alanları genelinde) göz önünde bulundurulduğunda, genellikle aracıların güvenilirliği tarafından ölçülen, kuralları ihlal eden çıktıların sayısı.

Boş yanıt oranı: Bir ürünün yanıt vermeyi amaçladığı dengeli bir istem grubu göz önüne alındığında, boş yanıtların sayısı (yani, girişin veya çıkışının engellenmesine bakılmaksızın ürünün güvenli bir çıkış sağlayamadığı durumlarda)

Çeşitlilik: Bir dizi istem göz önüne alındığında, çıkışlarda temsil edilen kimlik özelliklerinin boyutları arasındaki çeşitlilik dikkate alınır.

Adalet (hizmet kalitesi için): Hassas bir özelliğin karşı olgularını içeren bir dizi istem göz önünde bulundurularak aynı hizmet kalitesini sağlama imkanı.

Zarf Testi

Karşılıklı testler, uygulamanızı proaktif olarak "bozmaya" çalışmanızı içerir. Amaç, zayıf noktaları belirlemek ve böylece bunları telafi etmek için gerekli adımları atmaktır.

Yardımcı olmayan test, ML modellerinin, sistematik bir şekilde, kötü amaçlı veya yanlışlıkla zararlı girdi sağlandığında nasıl davrandığını öğrenmek amacıyla değerlendirilmesi için bir yöntemdir:

  • Giriş, güvenli olmayan veya zararlı bir çıktı üretmek için açık bir şekilde tasarlandığında (ör. metin oluşturma modelinden belirli bir din hakkında nefret söylemi uyandırması) kötü amaçlı bir giriştir.
  • Girişin sakıncalı olabileceği ancak zararlı çıktılar ürettiği (örneğin, belirli bir etnik kökenten bir kişiyi açıklayacağı ve ırkçı bir çıkış alacağı bir metin oluşturma modeli) ürettiği bir giriş, yanlışlıkla zararlıdır.

İki yönlü testin iki hedefi vardır: mevcut hata kalıplarını ortaya çıkararak ekiplerin sistemleri ve ürünleri sistematik olarak iyileştirmesine, kolay karar verme yollarına rehberlik etmesine ve güvenlik ürünü politikalarına uygunluğu değerlendirerek ve tamamen tahmin edilemeyen riskleri ölçerek ürün kararlarını bilgilendirmesine yardımcı olun.

İki yönlü testler, standart model değerlendirmesine benzer bir iş akışı uygular:

  1. Test veri kümesi bulun veya oluşturun
  2. Test veri kümesini kullanarak model çıkarımı çalıştırma
  3. Model çıkışına ek açıklama ekleyin
  4. Sonuçları analiz etme ve raporlama

Zor bir testi standart değerlendirmeden ayıran, test için kullanılan verilerin bileşimidir. Kötü amaçlı testler için, modelden sorunlu çıktı üretme olasılığı en yüksek olan test verilerini seçin. Bu sayede, nadir veya alışılmadık örnekler ve güvenlik politikalarıyla ilgili ileri düzey durumlar dahil olmak üzere mümkün olan her türlü zarar için modelin davranışını inceleyebilirsiniz. Ayrıca bir cümlenin yapı, anlam ve uzunluk gibi farklı boyutlarındaki çeşitliliği de içermelidir.