Bu birim, ham verileri uygun ve uygun özellik vektörlerini kullanmanız gerekir. İyi sayısal özellikler nitelikleri ifade eder.
Açıkça adlandırılmış
Her özelliğin herhangi bir insan için açık, makul ve bariz bir anlamı olmalıdır. gösterir. Örneğin, aşağıdaki özellik değerinin anlamı kafa karıştırıcı:
Önerilmeyen
House_age: 851472000
Bunun aksine, aşağıdaki özellik adı ve değeri çok daha açıktır:
Önerilen
House_age_years: 27
Eğitimden önce kontrol edilir veya test edilir
Bu modülde, proje yöneticisi olarak
aykırı değerleri varsa,
yeterince önemli olduğundan son bir kez bahsetmek gerekir. Bazı durumlarda, bozuk veri
(kötü mühendislik seçimlerine değil) değerlerin belirsiz olmasına neden olur. Örneğin,
Aşağıdaki user_age_in_years
, kaynağı kontrol etmeyen bir kaynaktan geldi
uygun değerlere sahip olduğundan emin olun:
Önerilmeyen
user_age_in_years: 224
Ancak kullanıcılar 24 yaşında olabilir:
Önerilen
user_age_in_years: 24
Verilerinizi kontrol edin.
Makul
"Sihirli değer" arasındaki kasıtlı devamsızlık
özelliğini kullanabilirsiniz. Örneğin, watch_time_in_seconds
adında sürekli bir özellik olduğunu varsayalım
0 ile 30 arasında herhangi bir kayan nokta değerini alabilir ancak mevcut olmadığını temsil eder
sihirli değeri olan bir ölçümün
Önerilmeyen
watch_time_in_seconds: -1
-1 değerine sahip bir watch_time_in_seconds
, modeli
ve bir filmi zamanda geriye götürmenin
ne anlama geldiğini açıklayacağız. Ortaya çıkan model
iyi tahminlerde bulunmaz.
Veri kümesi oluşturmaya dair ayrı bir Boole özelliği oluşturmak,
watch_time_in_seconds
olup olmadığı
değeri sağlanır. Örneğin:
Önerilen
watch_time_in_seconds:
4,82 is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Şimdi dikey bir yaklaşım düşünün Değerlerinin sınırlı bir değer grubuna ait olması gereken sayısal özellik. Burada bir değer eksik olduğunda, bu eksik değeri belirtmek için sonlu kümedir. Ayrık bir özellikle, model farklı ağırlıkları öğrenir eksik özelliklerin orijinal ağırlıkları dahil olmak üzere her değer için