Kötü amaçlı test, kötü amaçlı veya istenmeyen şekilde zararlı giriş sağlandığında makine öğreniminin nasıl davrandığını öğrenmek amacıyla sistematik bir şekilde değerlendirme yöntemidir. Bu rehberde, üretken AI için örnek bir spam test iş akışı açıklanmaktadır.
Kötü niyetli test nedir?
Testler, sağlam ve güvenli yapay zeka uygulamaları geliştirmenin kritik bir parçasıdır. Yardımcı test, sorunlu çıktı üretme olasılığı en yüksek olan verileri sağlayarak bir uygulamayı proaktif olarak "çalışmamaya" çalışır. Kötü amaçlı sorgular, bir modelin güvenli olmayan bir şekilde başarısız olmasına (ör. güvenlik politikası ihlalleri) yol açabilir ve insanların kolayca tanıyabileceği, ancak makinelerin tanımasını zorlaştıran hatalara neden olabilir.
Sorgular "istisna" olabilir. Açıkça yapılan kötü amaçlı sorgular, politikaları ihlal eden dil veya politikaları ihlal eden bakış açıları içerebilir ya da güvenli olmayan, zararlı veya rahatsız edici bir şey söylemeniz için modeli sorgulayabilir veya "aldatmaya" çalışabilir. Kötü amaçlı sorgular dolaylı olsa da zararlı, kültürel açıdan hassas veya potansiyel olarak zararlı olan hassas konular içerebilir. Bunlar demografik özellikler, sağlık, finans veya din ile ilgili bilgileri içerebilir.
Karşılıklı testler, ekiplerin hassas modeller, model korumaları veya filtreler gibi çözüm yollarına yön veren mevcut hataları ortaya çıkararak modelleri ve ürünleri iyileştirmelerine yardımcı olabilir. Ayrıca, çıktı politikasını ihlal eden bir modelin kullanılma olasılığı gibi, belirlenmemiş olabilecek riskleri ölçerek ürün lansman kararlarına yön verebilir.
Sorumlu yapay zeka için yeni bir en iyi uygulama olarak bu kılavuz, oluşturucu modeller ve sistemler için kötü amaçlı testler için örnek bir iş akışı sağlar.
İki yönlü test örneği iş akışı
Karşılıklı testler, standart model değerlendirmesine benzer bir iş akışı uygular.
Girişleri tanımlama ve tanımlama
Kötü niyetli test iş akışındaki ilk adım, bir sistemin kasıtlı ve sistematik saldırıya uğradığında nasıl davrandığını öğrenmek için girişleri belirlemektir. Üzerinde düşünülmüş girişler, test iş akışının etkisini doğrudan etkileyebilir. Aşağıdaki girişler, kötü amaçlı testlerin kapsamını ve hedeflerini tanımlamaya yardımcı olabilir:
- Ürün politikası ve hata modları
- Kullanım alanları
- Çeşitlilik koşulları
Ürün politikası ve hata modları
Jenerik AI ürünleri, izin verilmeyen (yani "güvenli olmayan") ürün davranışını ve model çıktılarını tanımlayan güvenlik politikalarını tanımlamalıdır. Politika, politika ihlali olarak değerlendirilecek hata modlarını belirtmelidir. Bu başarısız modlar listesi, dirençli testler için temel olarak kullanılmalıdır. Başarısız modlara örnek olarak küfürlü dil ya da finansal, hukuki veya tıbbi tavsiyeler barındıran içerikler verilebilir.
Kullanım alanları
Karşıt testin önemli bir girdisi de oluşturma modelinin veya ürününün sunmayı amaçladığı kullanım alanlarıdır. Böylece test verileri, kullanıcıların ürünle gerçek dünyada etkileşimde bulunma yollarına ilişkin bir miktar temsili içerir. Her neslin biraz farklı kullanım alanları vardır ancak yaygın kullanım örneklerinden bazıları dil modelleri için bilgi bulma, özetleme ve kod oluşturma ya da coğrafya veya alan, sanat veya giyim stiline göre arka planların resim oluşturmasıdır.
Çeşitlilik koşulları
İki yönlü test veri kümeleri, tüm hedef hata modlarına ve kullanım alanlarına saygı gösterecek kadar çeşitli olmalıdır. Test veri kümelerinin çeşitliliğini ölçmek, potansiyel sapmaları tespit etmeye yardımcı olur ve modellerin çeşitli kullanıcı grupları göz önünde bulundurularak kapsamlı bir şekilde test edilmesini sağlar.
Çeşitlilik üzerine düşünmenin üç yolu vardır:
- Lüks çeşitliliği: Sorguların farklı uzunluklarda bir kelime aralığına (ör. kelime sayısı) sahip olduğundan, geniş bir kelime aralığı kullandığından, yinelenen ifadeler içermediğinden ve farklı sorgu formüllerini (ör. w-sorular, doğrudan ve dolaylı istekler) temsil ettiğinden emin olun.
- Anlamsal çeşitlilik: Sorguların farklı kullanım alanlarında ve küresel bağlamlarda hassas ve kimliğe dayalı özellikler (ör. cinsiyet, etnik köken) dahil olmak üzere politika başına çok çeşitli konuları (ör. sağlık için diyabet) kapsadığından emin olun.
- Politika ve kullanım alanı çeşitliliği: Sorguların tüm politika ihlallerini (ör. nefret söylemi) ve kullanım alanlarını (ör. uzman önerileri) kapsadığından emin olun.
Test veri kümelerini bulun veya oluşturun
Kötü amaçlı testler için test veri kümeleri, standart model değerlendirme test kümelerinden farklı şekilde oluşturulur. Standart model değerlendirmelerinde test veri kümeleri, genellikle modelin üründe karşılaşacağı veri dağılımını doğru şekilde yansıtacak şekilde tasarlanmıştır. Yardımcı testlerde test verileri, modelin dağıtım dışı örneklerdeki ve güvenlik politikalarıyla ilgili uç örneklerdeki davranışını kanıtlayarak modelden sorunlu çıkış yapılmasını sağlar. Yüksek kaliteli bir sakıncalı test grubu tüm güvenlik politikası boyutlarını kapsamalı ve modelin desteklemek istediği kullanım alanlarının kapsamını en üst düzeye çıkarmalıdır. Anlamsal olarak (ör. farklı uzunluklarda ve dillerde yapılan sorgular dahil) ve anlam açısından (ör. farklı konuları ve demografik konuları kapsar) çeşitli olmalıdır.
Güvenlik politikaları, hata modları ve metin oluşturma ile metinden resim modellerine yönelik kullanım alanlarını öğrenmek için mevcut test veri kümelerini inceleyin. Ekipler, ürünlerinin veri tabanını oluşturmak için mevcut veri kümelerini kullanabilir ve ardından ürünlerinin sorun yaşadığı belirli hata modlarıyla ilgili daha derin analizler yapabilir.
Mevcut test veri kümeleri yetersizse ekipler belirli hata modlarını ve kullanım alanlarını hedeflemek için yeni veriler oluşturabilir. Yeni veri kümeleri oluşturmanın bir yolu, küçük bir sorgu veri kümesi (kategori başına onlarca örnek) oluşturmakla başlamak ve ardından veri sentezi araçlarını kullanarak bu "kaynak" veri kümesini genişletmektir.
Kaynak veri kümeleri, sistemin üretimde karşılaşabileceği sorunla mümkün olduğunca benzer örnekler olmalı ve politika ihlaline neden olmak amacıyla oluşturulmalıdır. Çok rahatsız edici dilin güvenlik özellikleri tarafından algılanma olasılığı yüksektir. Bu yüzden, yaratıcı ifadeler kullanma ve dolaylı olarak sakıncalı girişler üretme seçeneğini değerlendirin.
Test veri kümenizdeki hassas özelliklere (ör. yaş, cinsiyet, ırk, din) doğrudan veya dolaylı olarak referans verebilirsiniz. Bu terimlerin kullanımının kültürler arasında değişebileceğini unutmayın. Farklı ton, cümle yapısı, kelime seçimi ve anlam. Birden fazla etiketin (ör. nefret söylemi ve müstehcenlik) uygulanabileceği örnekler gürültü ve tekrar oluşturabilir ve değerlendirme ya da eğitim sistemleriyle doğru şekilde işlenmeyebilir.
Kompülsif test kümeleri; dilsel ve anlamsal çeşitlilik, politika ihlalleri ile kullanım alanlarında kapsam ve benzersizlik, düşmanlık ve güce açısından genel kalite açısından anlamak için analiz edilmelidir.
Model çıktıları oluşturma
Sonraki adım, test veri kümesine dayalı model çıktıları oluşturmaktır. Sonuçlar, ürün ekiplerine modellerinin kötü amaçlı kullanıcılara veya yanlışlıkla yapılan girişlere maruz kaldıklarında nasıl performans gösterebileceğini bildirir. Bu sistem davranışlarını ve yanıt kalıplarını belirlemek, gelecekte model geliştirilirken reddedilebilecek temel ölçümler sağlayabilir.
Çıkışlara ek açıklama ekleme
Kötü amaçlı testlerden elde edilen çıktılar oluşturulduktan sonra bunlara hata modları ve/veya zararlar şeklinde kategorize etmek için açıklama ekleyin. Bu etiketler, metin ve resim içeriği için güvenlik sinyalleri sağlamaya yardımcı olabilir. Ayrıca sinyaller, modeller ve ürünlerdeki zararları ölçmeye ve azaltmaya yardımcı olabilir.
Güvenlik çıkışları, politika çıkışları için model çıkışlarına (veya girişlerine) otomatik olarak ek açıklama eklemek için kullanılabilir. Nefret Söylemi gibi kesin olarak tanımlanmamış yapıları algılamaya çalışan sinyallerde doğruluk oranı düşük olabilir. Bu sinyallerde, puanların "belirsiz" olduğu sınıflandırıcılar tarafından oluşturulan etiketleri kontrol etmek ve düzeltmek için insan değerlendiricilerin kullanılması çok önemlidir.
Otomatik ek açıklamaya ek olarak, verilerinizin bir örneğine ek açıklama eklemek için gerçek kişi olan değerlendiricilerden de yararlanabilirsiniz. Kötüye kullanım testinin bir parçası olarak model çıkışlarına ek açıklama eklemenin, manuel içerik moderasyonuna benzer şekilde sorun yaratabilecek ve zararlı olabilecek metin veya resimlere bakmayı gerektirdiğini unutmayın. Buna ek olarak, gerçek kişi olan değerlendirmeciler aynı içeriğe kişisel geçmişleri, bilgileri veya inançları doğrultusunda farklı notlar ekleyebilirler. Değerlendirici havuzunuzun çeşitliliğinin ek açıklama sonuçlarını etkileyebileceğini göz önünde bulundurarak değerlendiriciler için yönergeler veya şablonlar geliştirmek faydalı olabilir.
Rapor et ve azalt
Son adım, bir rapordaki test sonuçlarını özetlemektir. Güvenlik oranları, görselleştirmeler ve sorunlu hata örnekleri sunmak için metrikleri hesaplayıp sonuçları raporlayın. Bu sonuçlar, model iyileştirmelerine yön verebilir ve filtreler veya engellenenler listeleri gibi model korumalarını sağlayabilir. Raporlar, paydaşlar ve karar mercileriyle iletişim kurma açısından da önemlidir.
Ek Kaynaklar
Google'ın AI Red Ekibi: AI'yı daha güvenli hale getiren etik bilgisayar korsanları
Dil Modelleriyle Kırmızı Ekip Oluşturma Dil Modelleri
Makine Öğrenimi geliştiricileri için Ürün Adaleti testi (video):
Geliştiriciler için Ürün Adalet Testi (Codelab)