Rastgele

Pratik Göz Önünde Bulundurulan Noktalar

Veri oluşturma hattınızı tekrar oluşturulabilir hale getirin. Model kalitesini nasıl etkilediğini görmek için bir özellik eklemek istediğinizi varsayalım. Adil bir deneme için, veri kümeleriniz bu yeni özellik hariç aynı olmalıdır. Veri oluşturma çalıştırmalarınız tekrarlanabilir değilse bu veri kümelerini oluşturamazsınız.

Bu durumda, veri oluşturmadaki herhangi bir rastgele sıralamanın belirleyici olabileceğinden emin olun:

  • Rastgele sayı jeneratörlerinizi oluşturun (RNG'ler). Bu sayede, çalıştırdığınız her RNG için aynı değerlerin aynı sırada çıkışı sağlanarak veri kümenizin yeniden oluşturulması sağlanır.
  • Değişken karma anahtarları kullanın. Karma oluşturma, verileri bölme veya örneklemenin yaygın bir yoludur. Her örneğe karma oluşturma işlemi uygulayabilirsiniz ve örneği tam olarak hangi gruba yerleştireceğinize karar vermek için elde edilen tam sayıyı kullanabilirsiniz. Karma işlevinizin girişleri, veri oluşturma programını her çalıştırdığınızda değişmemelidir. Örneğin, karmalarınızı isteğe bağlı olarak yeniden oluşturmak istiyorsanız karmalarınızda geçerli zamanı veya rastgele bir sayıyı kullanmayın.

Önceki yaklaşımlar, hem örnekleme hem de verileri bölme için geçerlidir.

Karma oluşturma için dikkat edilmesi gereken noktalar

Arama sorgularını topladığınızı ve sorguları dahil etmek veya hariç tutmak için karma oluşturma yöntemini kullandığınızı tekrar varsayalım. Karma anahtar yalnızca sorguyu kullandıysa birden fazla güne ait veriler genelinde bu sorguyu her zaman dahil eder veya her zaman hariç tutarsınız. Bir sorguyu her zaman dahil etmek veya hariç tutmak kötü bir durumdur çünkü:

  • Eğitim setiniz daha az çeşitli sorgular görür.
  • Eğitim verilerinizle çakışmayacağından değerlendirme kümeleriniz yapay olarak zorlanacaktır. Gerçekte ise yayın sırasında, canlı verilerinizin bir kısmını eğitim verilerinizde görmüştünüz. Bu nedenle değerlendirmeniz, bu bilgiyi yansıtmalıdır.

Bunun yerine, sorgu + tarihe karma oluşturma işlemi uygulayabilirsiniz. Bu durumda, karma oluşturma işlemi her gün uygulanır.

 

Yalnızca sorguda karma oluşturma işlemi uygulanmanın verilerin her gün aynı pakete gitmesine nasıl neden olduğunu gösterir. Ancak sorguya karma oluşturma işlemi uygulandığında sorgu her gün farklı paketlere aktarılır. Üç bölüm
Eğitim, Değerlendirme ve Yoksayılır.