BaşlayınÜcretsiz Başlayın

Tabakalı örnekleme

Artık volunteer veri kümesindeki category_desc sütunundaki sınıf etiketlerinin dağılımının dengesiz olduğunu biliyorsun. category_desc'i tahmin edecek bir model eğitmek istiyorsan, modelin tüm veri kümesini temsil eden bir veri örneği üzerinde eğitildiğinden emin olmalısın. Tabakalı örnekleme bunu başarmanın bir yoludur!

Bu egzersiz

Python'da Machine Learning için Ön İşleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Özelliklerden oluşan bir DataFrame oluştur: X. category_desc dışındaki tüm sütunları al.
  • Etiketlerden oluşan bir DataFrame oluştur: y. Bunu category_desc sütunundan oluştur.
  • Etiketlerdeki sınıf dağılımının her iki sette de aynı olduğundan emin olarak X ve y'yi eğitim ve test setlerine ayır.
  • y_train içindeki etiketleri ve sayılarını .value_counts() ile yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a DataFrame with all columns except category_desc
X = volunteer.____(____, axis=____)

# Create a category_desc labels dataset
y = ____[[____]]

# Use stratified sampling to split up the dataset according to the y dataset
X_train, X_test, y_train, y_test = ____(____, ____, ____, random_state=42)

# Print the category_desc counts from y_train
print(____[____].____)
Kodu Düzenle ve Çalıştır