Bu birim, ham verileri uygun özellik vektörleriyle eşleme yollarını araştırmıştır. İyi sayısal özellikler, bu bölümde açıklanan niteliklere sahiptir.
Açıkça adlandırılmış
Her özelliğin projedeki herkes için net, mantıklı ve açık bir anlamı olmalıdır. Örneğin, aşağıdaki özellik değerinin anlamı kafa karıştırıcıdır:
Önerilmeyen
house_age: 851472000
Buna karşılık, aşağıdaki özellik adı ve değeri çok daha nettir:
Önerilen
house_age_years: 27
Eğitimden önce kontrol edilmiş veya test edilmiş
Bu modülde aykırı değerlere çok zaman ayrılmış olsa da konu, son bir kez daha bahsedilmeyi hak edecek kadar önemlidir. Bazı durumlarda, net olmayan değerlere kötü veriler (kötü mühendislik seçimleri yerine) neden olur. Örneğin, aşağıdaki user_age_in_years
, uygun değerleri kontrol etmeyen bir kaynaktan geldi:
Önerilmeyen
user_age_in_years: 224
Ancak 24 yaşında olan kullanıcılar olabilir:
Önerilen
user_age_in_years: 24
Verilerinizi kontrol edin.
Sensible
"Sihirli değer", aksi takdirde sürekli olan bir özellikte kasıtlı olarak oluşturulan bir kesintidir. Örneğin, watch_time_in_seconds
adlı sürekli bir özelliğin 0 ile 30 arasında herhangi bir kayan nokta değerini tutabileceğini ancak sihirli değeri -1 olan bir ölçümün yokluğunu temsil ettiğini varsayalım:
Önerilmeyen
watch_time_in_seconds: -1
-1 değerine sahip bir watch_time_in_seconds
, modeli bir filmi geriye doğru izlemenin ne anlama geldiğini anlamaya çalışmaya zorlar. Elde edilen model muhtemelen iyi tahminler yapmaz.
Daha iyi bir teknik, watch_time_in_seconds
değerinin sağlanıp sağlanmadığını belirten ayrı bir Boole özelliği oluşturmaktır. Örneğin:
Önerilen
watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Bu, eksik değerler içeren sürekli bir veri kümesini işlemenin bir yoludur. Şimdi, değerleri sonlu bir değer kümesine ait olması gereken product_category
gibi discontinû sayısal bir özellik düşünün. Bu durumda, bir değer eksik olduğunda, eksik değeri sonlu kümedeki yeni bir değer kullanarak belirtin. Ayrık bir özellikte model, eksik özelliklerin orijinal ağırlıkları da dahil olmak üzere her değer için farklı ağırlıklar öğrenir.
Örneğin, kümeye uyan olası değerleri hayal edebiliriz:
{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.