Sayısal veri: İyi sayısal özelliklerin nitelikleri

Bu birim, ham verileri uygun ve uygun özellik vektörlerini kullanmanız gerekir. İyi sayısal özellikler nitelikleri ifade eder.

Açıkça adlandırılmış

Her özelliğin herhangi bir insan için açık, makul ve bariz bir anlamı olmalıdır. gösterir. Örneğin, aşağıdaki özellik değerinin anlamı kafa karıştırıcı:

Önerilmeyen

House_age: 851472000

Bunun aksine, aşağıdaki özellik adı ve değeri çok daha açıktır:

Önerilen

House_age_years: 27

Eğitimden önce kontrol edilir veya test edilir

Bu modülde, proje yöneticisi olarak aykırı değerleri varsa, yeterince önemli olduğundan son bir kez bahsetmek gerekir. Bazı durumlarda, bozuk veri (kötü mühendislik seçimlerine değil) değerlerin belirsiz olmasına neden olur. Örneğin, Aşağıdaki user_age_in_years, kaynağı kontrol etmeyen bir kaynaktan geldi uygun değerlere sahip olduğundan emin olun:

Önerilmeyen

user_age_in_years: 224

Ancak kullanıcılar 24 yaşında olabilir:

Önerilen

user_age_in_years: 24

Verilerinizi kontrol edin.

Makul

"Sihirli değer" arasındaki kasıtlı devamsızlık özelliğini kullanabilirsiniz. Örneğin, watch_time_in_seconds adında sürekli bir özellik olduğunu varsayalım 0 ile 30 arasında herhangi bir kayan nokta değerini alabilir ancak mevcut olmadığını temsil eder sihirli değeri olan bir ölçümün

Önerilmeyen

watch_time_in_seconds: -1

-1 değerine sahip bir watch_time_in_seconds, modeli ve bir filmi zamanda geriye götürmenin ne anlama geldiğini açıklayacağız. Ortaya çıkan model iyi tahminlerde bulunmaz.

Veri kümesi oluşturmaya dair ayrı bir Boole özelliği oluşturmak, watch_time_in_seconds olup olmadığı değeri sağlanır. Örneğin:

Önerilen

watch_time_in_seconds:
4,82 is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Şimdi dikey bir yaklaşım düşünün Değerlerinin sınırlı bir değer grubuna ait olması gereken sayısal özellik. Burada bir değer eksik olduğunda, bu eksik değeri belirtmek için sonlu kümedir. Ayrık bir özellikle, model farklı ağırlıkları öğrenir eksik özelliklerin orijinal ağırlıkları dahil olmak üzere her değer için