Sayısal veri: İyi sayısal özelliklerin nitelikleri

Bu birim, ham verileri uygun özellik vektörleriyle eşleme yollarını araştırmıştır. İyi sayısal özellikler, bu bölümde açıklanan niteliklere sahiptir.

Açıkça adlandırılmış

Her özelliğin projedeki herkes için net, mantıklı ve açık bir anlamı olmalıdır. Örneğin, aşağıdaki özellik değerinin anlamı kafa karıştırıcıdır:

Önerilmeyen

house_age: 851472000

Buna karşılık, aşağıdaki özellik adı ve değeri çok daha nettir:

Önerilen

house_age_years: 27

Eğitimden önce kontrol edilmiş veya test edilmiş

Bu modülde aykırı değerlere çok zaman ayrılmış olsa da konu, son bir kez daha bahsedilmeyi hak edecek kadar önemlidir. Bazı durumlarda, net olmayan değerlere kötü veriler (kötü mühendislik seçimleri yerine) neden olur. Örneğin, aşağıdaki user_age_in_years, uygun değerleri kontrol etmeyen bir kaynaktan geldi:

Önerilmeyen

user_age_in_years: 224

Ancak 24 yaşında olan kullanıcılar olabilir:

Önerilen

user_age_in_years: 24

Verilerinizi kontrol edin.

Sensible

"Sihirli değer", aksi takdirde sürekli olan bir özellikte kasıtlı olarak oluşturulan bir kesintidir. Örneğin, watch_time_in_seconds adlı sürekli bir özelliğin 0 ile 30 arasında herhangi bir kayan nokta değerini tutabileceğini ancak sihirli değeri -1 olan bir ölçümün yokluğunu temsil ettiğini varsayalım:

Önerilmeyen

watch_time_in_seconds: -1

-1 değerine sahip bir watch_time_in_seconds, modeli bir filmi geriye doğru izlemenin ne anlama geldiğini anlamaya çalışmaya zorlar. Elde edilen model muhtemelen iyi tahminler yapmaz.

Daha iyi bir teknik, watch_time_in_seconds değerinin sağlanıp sağlanmadığını belirten ayrı bir Boole özelliği oluşturmaktır. Örneğin:

Önerilen

watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Bu, eksik değerler içeren sürekli bir veri kümesini işlemenin bir yoludur. Şimdi, değerleri sonlu bir değer kümesine ait olması gereken product_category gibi discontinû sayısal bir özellik düşünün. Bu durumda, bir değer eksik olduğunda, eksik değeri sonlu kümedeki yeni bir değer kullanarak belirtin. Ayrık bir özellikte model, eksik özelliklerin orijinal ağırlıkları da dahil olmak üzere her değer için farklı ağırlıklar öğrenir.

Örneğin, kümeye uyan olası değerleri hayal edebiliriz:

{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.