Veri Hazırlama

Veri Hazırlığı ve Makine Öğrenimi için Özellik Mühendisliği kursu genel veri hazırlamayı ele alırken bu kümeye özel hazırlık konularını kapsar.

Kümelemede, iki örnek arasındaki benzerliği hesaplar ve bu örneklerin tüm özellik verilerini sayısal bir değerde birleştirirsiniz. Özellik verilerinin birleştirilmesi için verilerin aynı ölçekte olması gerekir. Bu bölümde normalleştirme, dönüştürme ve miktar oluşturma gibi konuların yanı sıra, miktarların herhangi bir veri dağıtımını dönüştürmek için neden en iyi varsayılan seçenek olduğu açıklanmaktadır. Varsayılan seçeneğe sahip olmak, verilerinizin dağıtımını incelemeden verilerinizi dönüştürmenizi sağlar.

Verileri Normalleştirme

Verileri normalleştirerek birden fazla özelliğin verilerini aynı ölçekte dönüştürebilirsiniz. Normalleştirme, özellikle en yaygın veri dağıtımının (Gaussian dağıtımı) işlenmesine uygundur. Normalleştirmeye kıyasla çeyrekler için çok daha az veri gerekir. Z puanını aşağıdaki gibi hesaplayarak verileri normalleştirin:

\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]

Normalleştirme içeren ve içermeyen örnekler arasındaki benzerliğe göz atalım. Şekil 1'de kırmızının sarıya kıyasla maviye daha yakın olduğunu görebilirsiniz. Ancak x ve y eksenlerindeki özellikler aynı ölçekte değildir. Bu nedenle, gözlemlenen benzerlik, ölçeklendirilmemiş verilerin bir yapısı olabilir. Z puanı kullanılarak normalleştirildikten sonra tüm özellikler aynı ölçeğe sahiptir. Kırmızının aslında sarıya daha benzer olduğunu görüyorsunuz. Böylece, verileri normalleştirdikten sonra benzerliği daha doğru bir şekilde hesaplayabilirsiniz.

Normalleştirme öncesi ve sonrası özellik verilerini karşılaştıran iki grafik
Şekil 1: Özellik verilerinin normalleştirme öncesi ve sonrası karşılaştırması.

Özetle, aşağıdakilerden biri doğru olduğunda normalleştirme uygulayın:

  • Verileriniz Gauss dağılımı gösterir.
  • Veri kümenizde miktar oluşturmak için yeterli veri yok.

Günlük Dönüşümünü Kullanma

Bazen bir veri kümesi, verileri en alt kısma dolduran bir güç yasası ile uyumlu olur. Şekil 2'de kırmızı, sarıya maviden daha yakındır.

Verilerin çoğunun alt uçta olduğunu gösteren bir çubuk grafik
Şekil 2: Güç yasası dağıtımı.

Günlük dönüştürmeyi kullanarak bir hukuk yasası dağıtımını işleyin. Şekil 3'te günlük dönüşümü daha sorunsuz bir şekilde gerçekleşir ve kırmızı, sarıya yakın renktedir.

Normal (Gauss) dağılımı gösteren grafik
Şekil 3: Normal (Gauss) dağıtım.

Nicel'i kullanma

Normalleştirme ve günlük dönüşümleri, belirli veri dağıtımlarını ele alır. Veriler Gauss veya enerji hukuku dağıtımına uygun değilse ne olur? Veri dağıtımı için geçerli olan genel bir yaklaşım var mı?

Bu dağılımı önceden işlemeyi deneyelim.

Ön işleme öncesi veri dağıtımını gösteren grafik
Şekil 4: Ön işleme tabi tutulmadan önce, kategorize edilemeyen dağılım.

Örneğin, iki örnek arasında yalnızca birkaç örnek varsa bu iki örnek, değerlerinden bağımsız olarak benzerdir. Buna karşılık, iki örnek arasında birçok örnek varsa, bu iki örnek daha az benzerdir. Bu nedenle, iki örnek arasındaki benzerlik azalır ve örnekler arasındaki örnek sayısı artar.

Normalleştirme doğrusal bir dönüşüm olduğundan verilerin normalleştirilmesi, veri dağıtımını yeniden oluşturur. Günlük dönüşümünü uygulamak, aşağıdaki Şekil 5'te gösterildiği gibi, benzerliğin işleyiş şekliyle ilgili sezgilerinizi de yansıtmaz.

Günlük dönüşümünün ardından veri dağılımını gösteren grafik
Şekil 5: Günlük dönüşümünün ardından gerçekleşen dağılım.

Bunun yerine, verileri her bir aralığın eşit sayıda örnek içerdiği aralıklara bölün. Bu aralık sınırlarına çeyrekler denir.

Aşağıdaki adımları gerçekleştirerek verilerinizi miktarlara dönüştürün:

  1. Aralık sayısına karar verin.
  2. Aralıkları, eşit sayıda örnek içerecek şekilde tanımlayın.
  3. Her bir örneği, denk gelen aralığın diziniyle değiştirin.
  4. Dizin değerlerini [0,1] olarak ölçeklendirerek dizinleri diğer özellik verileriyle aynı aralığa getirin.
Dönüşümden sonraki verileri nicel olarak gösteren grafik. Satır 20 aralığı temsil eder.]
Şekil 6: Dönüşümden sonra miktarlara dağılım.

Verileri miktarlara dönüştürdükten sonra, iki örnek arasındaki benzerlik, bu iki örnek arasındaki örnek sayısıyla ters orantılıdır. Matematiksel olarak da veri kümesinde "x" herhangi bir örnektir:

  • \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
  • \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)

Nicelikler, verileri dönüştürmek için en iyi varsayılan seçenektir. Ancak temel veri dağıtımının güvenilir göstergeleri olan çeyrekler oluşturmak için çok fazla veriye ihtiyacınız vardır. Genel bir kural olarak, \(n\) çeyrekler oluşturmak için en az \(10n\) örnekinizin olması gerekir. Yeterli veriniz yoksa normalleştirmeye devam edin.

Öğrendiklerinizi Kontrol Etme

Aşağıdaki sorular için rakamlar oluşturmak üzere yeterli miktarda veriye sahip olduğunuzu varsayalım.

Birinci Soru

Üç veri dağıtımını gösteren hikaye
Bu veri dağıtımını nasıl işlersiniz?
Niceller oluşturun.
Doğru. Dağılım, standart bir veri dağıtımıyla eşleşmediğinden çeyrekler oluşturma işlemine dönmeniz gerekir.
Normalleştir.
Genellikle aşağıdaki durumlarda verileri normalleştirirsiniz:
  • Veri dağıtımı Gaussçadır.
  • Verilerin neyi temsil ettiğine dair analizler sayesinde verilerin doğrusal olarak dönüştürülmemesi gerektiğini anlayabilirsiniz. Sonuç olarak nicelerden kaçınır ve normalleştirmeyi seçersiniz.
Her iki durum da burada geçerli değildir. Simetrik olmadığı için veri dağıtımı Gaussça değildir. Bu değerlerin gerçek dünyada neyi temsil ettiğine dair bilgiye sahip değilsiniz.
Günlük dönüştürme.
Bu, kusursuz bir hukuk yasası dağıtımı olmadığı için en iyi seçim değildir.

İkinci Soru

Üç veri dağıtımını gösteren hikaye
Bu veri dağıtımını nasıl işlersiniz?
Normalleştir.
Doğru. Bu bir Gauss dağılımıdır.
Niceller oluşturun.
Yanlış. Bu bir Gauss dağılımı olduğundan, tercih edilen dönüşüm normalleştirmedir.
Günlük dönüştürme.
Yanlış. Güç hukuku dağıtımlarında yalnızca günlük dönüşümü uygulayın.

Eksik Veri

Veri kümenizde belirli bir özellik için eksik değerlere sahip örnekler varsa ancak bu tür örnekler nadiren gerçekleşiyorsa bu örnekleri kaldırabilirsiniz. Bu tür örnekler sık oluyorsa bu özelliği tamamen kaldırma veya makine öğrenimi modeli kullanarak diğer örneklerdeki eksik değerleri tahmin etme seçeneğimiz vardır. Örneğin, mevcut özellik verileri üzerinde eğitilmiş bir regresyon modeli kullanarak eksik sayısal verileri hesaplayabilirsiniz.