Veri Hazırlığı ve Makine Öğrenimi için Özellik Mühendisliği kursu genel veri hazırlamayı ele alırken bu kümeye özel hazırlık konularını kapsar.
Kümelemede, iki örnek arasındaki benzerliği hesaplar ve bu örneklerin tüm özellik verilerini sayısal bir değerde birleştirirsiniz. Özellik verilerinin birleştirilmesi için verilerin aynı ölçekte olması gerekir. Bu bölümde normalleştirme, dönüştürme ve miktar oluşturma gibi konuların yanı sıra, miktarların herhangi bir veri dağıtımını dönüştürmek için neden en iyi varsayılan seçenek olduğu açıklanmaktadır. Varsayılan seçeneğe sahip olmak, verilerinizin dağıtımını incelemeden verilerinizi dönüştürmenizi sağlar.
Verileri Normalleştirme
Verileri normalleştirerek birden fazla özelliğin verilerini aynı ölçekte dönüştürebilirsiniz. Normalleştirme, özellikle en yaygın veri dağıtımının (Gaussian dağıtımı) işlenmesine uygundur. Normalleştirmeye kıyasla çeyrekler için çok daha az veri gerekir. Z puanını aşağıdaki gibi hesaplayarak verileri normalleştirin:
\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]
Normalleştirme içeren ve içermeyen örnekler arasındaki benzerliğe göz atalım. Şekil 1'de kırmızının sarıya kıyasla maviye daha yakın olduğunu görebilirsiniz. Ancak x ve y eksenlerindeki özellikler aynı ölçekte değildir. Bu nedenle, gözlemlenen benzerlik, ölçeklendirilmemiş verilerin bir yapısı olabilir. Z puanı kullanılarak normalleştirildikten sonra tüm özellikler aynı ölçeğe sahiptir. Kırmızının aslında sarıya daha benzer olduğunu görüyorsunuz. Böylece, verileri normalleştirdikten sonra benzerliği daha doğru bir şekilde hesaplayabilirsiniz.
Özetle, aşağıdakilerden biri doğru olduğunda normalleştirme uygulayın:
- Verileriniz Gauss dağılımı gösterir.
- Veri kümenizde miktar oluşturmak için yeterli veri yok.
Günlük Dönüşümünü Kullanma
Bazen bir veri kümesi, verileri en alt kısma dolduran bir güç yasası ile uyumlu olur. Şekil 2'de kırmızı, sarıya maviden daha yakındır.
Günlük dönüştürmeyi kullanarak bir hukuk yasası dağıtımını işleyin. Şekil 3'te günlük dönüşümü daha sorunsuz bir şekilde gerçekleşir ve kırmızı, sarıya yakın renktedir.
Nicel'i kullanma
Normalleştirme ve günlük dönüşümleri, belirli veri dağıtımlarını ele alır. Veriler Gauss veya enerji hukuku dağıtımına uygun değilse ne olur? Veri dağıtımı için geçerli olan genel bir yaklaşım var mı?
Bu dağılımı önceden işlemeyi deneyelim.
Örneğin, iki örnek arasında yalnızca birkaç örnek varsa bu iki örnek, değerlerinden bağımsız olarak benzerdir. Buna karşılık, iki örnek arasında birçok örnek varsa, bu iki örnek daha az benzerdir. Bu nedenle, iki örnek arasındaki benzerlik azalır ve örnekler arasındaki örnek sayısı artar.
Normalleştirme doğrusal bir dönüşüm olduğundan verilerin normalleştirilmesi, veri dağıtımını yeniden oluşturur. Günlük dönüşümünü uygulamak, aşağıdaki Şekil 5'te gösterildiği gibi, benzerliğin işleyiş şekliyle ilgili sezgilerinizi de yansıtmaz.
Bunun yerine, verileri her bir aralığın eşit sayıda örnek içerdiği aralıklara bölün. Bu aralık sınırlarına çeyrekler denir.
Aşağıdaki adımları gerçekleştirerek verilerinizi miktarlara dönüştürün:
- Aralık sayısına karar verin.
- Aralıkları, eşit sayıda örnek içerecek şekilde tanımlayın.
- Her bir örneği, denk gelen aralığın diziniyle değiştirin.
- Dizin değerlerini [0,1] olarak ölçeklendirerek dizinleri diğer özellik verileriyle aynı aralığa getirin.
Verileri miktarlara dönüştürdükten sonra, iki örnek arasındaki benzerlik, bu iki örnek arasındaki örnek sayısıyla ters orantılıdır. Matematiksel olarak da veri kümesinde "x" herhangi bir örnektir:
- \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
- \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)
Nicelikler, verileri dönüştürmek için en iyi varsayılan seçenektir. Ancak temel veri dağıtımının güvenilir göstergeleri olan çeyrekler oluşturmak için çok fazla veriye ihtiyacınız vardır. Genel bir kural olarak, \(n\) çeyrekler oluşturmak için en az \(10n\) örnekinizin olması gerekir. Yeterli veriniz yoksa normalleştirmeye devam edin.
Öğrendiklerinizi Kontrol Etme
Aşağıdaki sorular için rakamlar oluşturmak üzere yeterli miktarda veriye sahip olduğunuzu varsayalım.
Birinci Soru
- Veri dağıtımı Gaussçadır.
- Verilerin neyi temsil ettiğine dair analizler sayesinde verilerin doğrusal olarak dönüştürülmemesi gerektiğini anlayabilirsiniz. Sonuç olarak nicelerden kaçınır ve normalleştirmeyi seçersiniz.
İkinci Soru
Eksik Veri
Veri kümenizde belirli bir özellik için eksik değerlere sahip örnekler varsa ancak bu tür örnekler nadiren gerçekleşiyorsa bu örnekleri kaldırabilirsiniz. Bu tür örnekler sık oluyorsa bu özelliği tamamen kaldırma veya makine öğrenimi modeli kullanarak diğer örneklerdeki eksik değerleri tahmin etme seçeneğimiz vardır. Örneğin, mevcut özellik verileri üzerinde eğitilmiş bir regresyon modeli kullanarak eksik sayısal verileri hesaplayabilirsiniz.