ML Pratiği: Görüntü Sınıflandırma

Google'ın, Google Fotoğraflar'da aramaya güç veren son teknoloji görüntü sınıflandırma modelini nasıl geliştirdiğini öğrenin. Evrişimli sinir ağlarına dair bir kursa katılın ve ardından kedi fotoğraflarını köpek fotoğraflarından ayırt etmek için kendi resim sınıflandırıcınızı oluşturun.

Ön koşullar

  • Makine Öğrenimi Kilitlenme Kursu veya makine öğreniminin temelleri ile eşdeğer deneyim

  • Programlamanın temelleri konusunda yeterlilik ve Python'da kodlama konusunda biraz deneyim

Giriş

Mayıs 2013'te Google, kişisel fotoğraflar için arama özelliğini kullanıma sundu. Böylece kullanıcılar, resimlerdeki nesnelere göre kitaplıklarındaki fotoğrafları alabilir.

Google Fotoğraflar'da Siyam kedisi aramasının gösterildiği ekran görüntüsü Şekil 1. Google Fotoğraflar araması Siyam kedileri ürünleri sunuyor!

Daha sonra 2015'te Google Fotoğraflar'a dahil edilen bu özellik, büyük ölçüde oyun değiştirici olarak algılanmıştır. Bilgisayar görüşü yazılımının resimleri insan standartlarına göre sınıflandırabileceği, pek çok açıdan değer kattığına dair bir kanıt.

  • Yüzlerce veya binlerce resim grubunu yönetirken oldukça zahmetli olabilecek manuel görevleri ortadan kaldırmak için kullanıcıların artık fotoğrafları "sınıf plajı" gibi etiketlerle etiketlemesine gerek yok.
  • Kullanıcılar, hiç arama yapmamış olabilecekleri fotoğrafları bulmak için arama terimlerini kullanarak fotoğraf koleksiyonlarını yeni yollarla keşfedebilirler. Örneğin, arka planda palmiye ağaçları olan tüm tatil fotoğraflarını göstermek için "palmiye ağacı" araması yapabilirler.
  • Yazılım, son kullanıcıların algılayamayacağı (ör. Siyam ve Abyssiniya kedilerini ayırt etme) ve alan bilgisini etkili bir şekilde artırdığı için potansiyel olarak " kullanıcıya özel" ayırt edici özellikleri görebilir.

Görüntü Sınıflandırmanın İşleyiş Şekli

Görüntü sınıflandırması, gözetimli bir öğrenme sorunudur: Bir hedef sınıf kümesi (resimlerde tanımlanacak nesneler) tanımlayın ve etiketli örnek fotoğrafları kullanarak bu modelleri tanımak için bir model eğitin. İlk bilgisayar görüşü modelleri, modele girdi olarak ham piksel verilerini kullanırdı. Ancak Şekil 2'de gösterildiği gibi, ham piksel verileri yalnızca görüntüde yakalanan bir nesnenin çok sayıda varyasyonunu kapsamaya yetecek kadar kararlı bir temsil sağlamaz. Nesnenin, nesnenin arka planının arka planı, ortam ışığı, kamera açısı ve kamera odağının konumu ham piksel verilerinde dalgalanmalara neden olabilir. Bu farklar, piksel RGB değerlerinin ağırlıklı ortalamaları alınarak düzeltilemeyecek kadar önemlidir.

farklı konumlarda, farklı arka plan ve ışık koşullarında kedi gösteren fotoğrafların kolajı ve görsellerden elde edilen ortalama piksel verileri Şekil 2. Sol: Kediler farklı pozlarda, farklı arka planlarda ve ışıklandırma koşullarında fotoğraf çekilebilir. Sağ: Bu aralığı hesaba katmak için piksel verilerinin ortalamasını almak anlamlı bir bilgi sunmaz.

Nesneleri daha esnek şekilde modellemek için klasik bilgisayar görüşü modelleri, piksel verilerinden elde edilen renk histogramları, dokular ve şekiller gibi yeni özellikler ekledi. Bu yaklaşımın dezavantajı, özellik mühendisliğinin zahmetli birçok giriş olduğu için gerçek bir yük haline gelmesiydi. Kedi sınıflandırma araçları için en uygun renkler hangileriydi? Şekil tanımları ne kadar esnek olmalı? Özelliklerin bu kadar hassas ayarlanması gerektiği için sağlam modeller oluşturmak oldukça zordu ve doğruluk sorunu yaşandı.