Başarıyı ölçme

Makine öğrenimi uygulamanızın bu işe değip değmeyeceğini nasıl anlarsınız? Kutlamaya ne zaman başlamalısınız? Model üretime geçip ilk tahminini sunduktan hemen sonra mı yoksa sadece niceliksel bir iş metriği doğru yönde hareket etmeye başladıktan sonra mı?

Bir projeye başlamadan önce başarı metriklerinizi tanımlamak ve teslimatlar üzerinde anlaşmak çok önemlidir. Aşağıdaki iki metrik türünü tanımlamanız ve izlemeniz gerekir:

İşletme metrikleri

İşletme metrikleri en önemli metriklerdir. Makine öğrenimini kullanmanın nedeni bu: işi geliştirmek istiyorsunuz.

Ölçülebilir ürün veya işletme metrikleriyle başlayın. Metrik mümkün olduğunca ayrıntılı ve odaklanmış olmalıdır. Aşağıda odaklanmış, ölçülebilir işletme metriklerine örnekler verilmiştir:

  • Bir veri merkezinin aylık elektrik maliyetlerini yüzde 30 azaltmak.
  • Ürün önerilerinden elde edilen geliri yüzde 12 artırmak.
  • Tıklama oranını yüzde 9 artırmak.
  • Katılım anketleriyle müşteri duyarlılığını yüzde 20 artırmak.
  • Sayfada geçirilen süreyi yüzde 4 artırmak.

İş metriklerini izleme

İyileştirmek istediğiniz iş metriğini izlemiyorsanız ilk olarak altyapıyı uygulayın. Tıklama oranını% 15 artıracak bir hedef belirlemek, şu anda tıklama oranlarını ölçmüyorsanız mantıklı olmayacaktır.

Daha da önemlisi, sorununuz için doğru metriği ölçtüğünüzden emin olun. Örneğin, en önemli metrik önerilerden elde edilen gelirse tıklama oranlarını izlemek için gerekli araçları yazmaya zaman harcamayın.

Projeniz ilerledikçe hedef başarı metriğinin gerçekçi bir hedef olup olmadığını göreceksiniz. Bazı durumlarda, tanımlanan başarı metrikleri dikkate alındığında projenin uygun olmadığını tespit edebilirsiniz.

Model metrikleri

Modeli ne zaman üretime koymalısınız? AUC değeri ne zaman belirli bir değerde olur? Model belirli bir F1 puanına ne zaman ulaşır? Bu sorunun yanıtı, çözdüğünüz problemin türüne ve iş metriğini iyileştirmek için ihtiyacınız olduğunu düşündüğünüz tahmin kalitesine bağlıdır.

Modelinizi hangi metriklere göre değerlendireceğinizi belirlerken aşağıdakileri göz önünde bulundurun:

  • Optimize edilecek tek bir metrik belirleme. Örneğin, sınıflandırma modelleri çeşitli metriklere (AUC, AUC-PR vb.) göre değerlendirilebilir. Farklı metrikler farklı modelleri desteklediğinde en iyi modeli seçmek zor olabilir. Bu nedenle, modelleri değerlendireceğiniz tek bir metrik üzerinde anlaşmaya varın.

  • Ulaşacağınız kabul edilebilirlik hedeflerini belirleyin. Kabul edilebilirlik hedefleri, model değerlendirme metriklerinden farklıdır. Bir modelin amaçlanan kullanım alanı açısından kabul edilebilir olması için karşılaması gereken hedefleri ifade eder. Örneğin, kabul edilebilirlik hedefi "hatalı çıkış %0,1'den az" veya "ilk beş kategori için geri çağırma %97'den fazla" olabilir.

Örneğin, ikili sınıflandırma modelinin sahte işlemleri algıladığını varsayalım. Optimizasyon metriği çağrışımlı olabilir, ancak kabul edilebilirlik hedefi hassas olabilir. Diğer bir deyişle, geri çağırmaya (çoğu zaman sahtekarlığı doğru şekilde tanımlamaya) öncelik verirken belirli bir değerde veya bu değerin üstünde kalmaya (gerçek sahte işlemleri tanımlamak) hassasiyet isteriz.

Model metrikleri ile iş metrikleri arasındaki bağlantı

Esas olarak, tahmin kalitesi iş metriğinizle bağlantılı olan bir model geliştirmeye çalışıyorsunuz. Daha iyi model metrikleri, mutlaka daha iyi iş metrikleri imasında bulunmaz. Ekibiniz etkileyici metriklere sahip bir model geliştirebilir, ancak modelin tahminleri iş metriğini iyileştirmeyebilir.

Modelinizin tahmin kalitesinden memnunsanız modelin metriklerinin iş metriğini nasıl etkilediğini belirlemeye çalışın. Ekipler genellikle modeli kullanıcıların% 1'ine dağıtır ve ardından iş metriğini izler.

Örneğin ekibinizin müşteri kaybını tahmin ederek geliri artırmak için bir model geliştirdiğini varsayalım. Teoride, bir müşterinin platformdan ayrılma ihtimalinin olup olmadığını tahmin edebiliyorsanız, müşteriyi kalmaya teşvik edebilirsiniz.

Ekibiniz% 95 tahmin kalitesine sahip bir model oluşturur ve bu modeli küçük bir kullanıcı örneğinde test eder. Ancak gelir artmaz. Müşteri kaybı gerçekten artıyor. Aşağıda bazı olası açıklamalar verilmiştir:

  • Tahminler, uygulanabilir olacak kadar erken gerçekleşmez. Bu model yalnızca yedi günlük bir zaman dilimi içinde müşteri kaybını tahmin edebilir. Bu da müşterileri platformda tutmak için teşvik sunmak için yeterli bir süre değildir.

  • Eksik özellikler. Belki de eğitim veri kümesinde bulunmayan müşteri kaybına başka faktörler de katkıda bulunuyor olabilir.

  • Eşik yeterince yüksek değildir. Modelin kullanışlı olması için tahmin kalitesinin% 97 veya daha yüksek olması gerekebilir.

Bu basit örnekte iki nokta vurgulanmaktadır:

  • Modelin metrikleri ile iş metrikleri arasındaki bağlantıyı kanıtlamak (ve anlamak) için ilk kullanıcı testinin yapılması önemlidir.
  • İyi model metrikleri, iyileştirilmiş iş metriklerini garanti etmez.

Üretken Yapay Zeka

Üretken yapay zeka çıktısının değerlendirilmesi benzersiz zorluklar yaratır. Açık uçlu veya kreatif çıktılar gibi çoğu durumda bu, geleneksel makine öğrenimi çıktılarını değerlendirmekten daha zordur.

LLM'ler, çeşitli metriklere göre ölçülebilir ve değerlendirilebilir. Modelinizi değerlendireceğiniz metrikleri belirlemek kullanım alanınıza bağlıdır. Daha fazla bilgi için LLM'leri Değerlendirmeye Giriş sayfasını inceleyin.

Hatırlatma

Model başarısını işletme başarısıyla karıştırmayın. Diğer bir deyişle, üstün metriklere sahip bir model, işletmenin başarısını garanti etmez.

Birçok yetenekli mühendis, etkileyici metriklere sahip modeller oluşturabilir. Genellikle sorun, yeterince iyi bir modelin eğitimi değildir. Aksine, modelin iş metriğini iyileştirmemesidir. İşletme metrikleri ile model metrikleri arasındaki uyuşmazlık, bir ML projesinde başarısızlığa yol açabilir.

Öğrendiklerinizi sınayın