Makine Öğreniminde Veri Hazırlama ve Özellik Mühendisliği

Makine öğrenimi, verilerdeki kalıpları (yeni veri noktaları hakkında tahminde bulunmak için kullandığımız kalıplar) bulmamıza yardımcı olur. Bu tahminlerin doğru olması için veri kümesini oluşturmamız ve verileri doğru bir şekilde dönüştürmesi gerekir. Bu kursta bu iki temel adım ele alınmaktadır. Ayrıca, eğitim/sunumla ilgili konuların bu adımlarda nasıl ilerlediğini de göreceğiz.

Beş aşama halinde düzenlenmiş bir makine öğrenimi projesi. 1. ML sorunu tanımlayın ve bir çözüm önerin. 2. Veri kümenizi oluşturun. 3. Verileri dönüştürün.
4. Model eğitin. 5. Tahmin yapmak için modeli kullanın.  Bu kursta veri kümesi oluşturma ve veri dönüştürme konularını ele alacağız.

Ön koşullar

Bu kursta:

Veri Hazırlama ve Özellik Mühendisliği hakkında bilgi edinmenin avantajları

Özellik mühendisliğini, modelin veri kümesini sizinle aynı şekilde anlamasına yardımcı olmak gibi düşünebilirsiniz. Öğrenciler genellikle model oluşturmaya odaklanan bir makine öğrenimi kursuna gelir ancak sonunda verilere odaklanmak için çok daha fazla zaman harcarlar.

Aşağıdaki soruda cevabınızı kontrol etmek için istediğiniz oku tıklayın:

Makine öğrenimi projenizde aşağıdaki alanlardan birini iyileştirmeye öncelik vermeniz gerekse en büyük etki aşağıdakilerden hangisidir?
Verilerinizin kalitesi ve boyutu
Veriler her şeyden önce gelir. Öğrenim algoritmanızı veya model mimarinizi güncellemenizin farklı kalıp türleri öğrenmenize olanak tanıyacağı doğrudur. Bununla birlikte, verileriniz kötüyse yanlış olan işleve uygun işlevler geliştirirsiniz. Veri kümesinin kalitesi ve boyutu, kullandığınız parlak algoritmadan çok daha önemlidir.
En son optimizasyon algoritmasını kullanma
Optimize edicileri aktarmada bazı artışlar görebilirsiniz ancak bu listedeki başka bir öğe kadar, modeliniz üzerinde bu kadar önemli bir etkisi olmaz.
Daha derin bir ağ
Daha derin bir ağ, modelinizi iyileştirebilir ancak etki, bu listedeki başka bir öğe kadar önemli değildir.
Daha akıllı bir kayıp işlevi
Yaklaştınız! Daha iyi bir kayıp işlevi size büyük bir kazanç sağlayabilir, ancak bu listedeki başka bir öğeyle ilişkilidir.

İyi bir veri kümesi toplamak neden önemlidir?

Google Çeviri

"Nöral makine çevirisi, kullanılacak eğitim verilerimizin en iyi alt kümesini belirlemede rol oynadığından beri en etkili

- Yazılım Mühendisi, Google Çeviri

Google Çeviri Ekibi, kullanabileceğinden daha fazla eğitim verisine sahiptir. Ekip, modelde ince ayarlar yapmak yerine verilerindeki en iyi özellikleri kullanarak daha büyük kazançlar elde etti.

 

 

 

"İlgi çekici hatalar için manuel olarak hata ayıklama girişiminde bulunduğumda çoğu zaman eğitim verileriyle ilgili sorunlar izleniyordu." - Yazılım Mühendisi, Google Çeviri

"İlgi çekici görünen" hatalar, genellikle verilerden kaynaklanır. Hatalı veriler, hangi modelleme tekniklerini denediğinizden bağımsız olarak modelinizin yanlış kalıpları öğrenmesine neden olabilir.

 

 

Beyin Diyabetik Retinopati Projesi

Google Brain'in diyabetik retinopati projesi, görüntüleri sınıflandırarak hastalığı algılamak için Başlangıç olarak bilinen bir nöral ağ mimarisini kullandı. Ekip, modellerde küçük değişiklikler yapmadı. Bunun yerine oftalmologlar tarafından etiketlenmiş 120.000 örnekten oluşan bir veri kümesi oluşturarak başarıya ulaştılar. (https://research.google.com/pubs/pub43022.html adresinden daha fazla bilgi edinebilirsiniz.)