Tabakalı örnekleme

Artık volunteer veri kümesindeki category_desc sütunundaki sınıf etiketlerinin dağılımının dengesiz olduğunu biliyorsun. category_desc'i tahmin edecek bir model eğitmek istiyorsan, modelin tüm veri kümesini temsil eden bir veri örneği üzerinde eğitildiğinden emin olmalısın. Tabakalı örnekleme bunu başarmanın bir yoludur!

Bu egzersiz, kursun bir parçasıdır

Python'da Machine Learning için Ön İşleme

Kursa Göz Atın

Egzersiz talimatları

Özelliklerden oluşan bir DataFrame oluştur: X. category_desc dışındaki tüm sütunları al.
Etiketlerden oluşan bir DataFrame oluştur: y. Bunu category_desc sütunundan oluştur.
Etiketlerdeki sınıf dağılımının her iki sette de aynı olduğundan emin olarak X ve y'yi eğitim ve test setlerine ayır.
y_train içindeki etiketleri ve sayılarını .value_counts() ile yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a DataFrame with all columns except category_desc
X = volunteer.____(____, axis=____)

# Create a category_desc labels dataset
y = ____[[____]]

# Use stratified sampling to split up the dataset according to the y dataset
X_train, X_test, y_train, y_test = ____(____, ____, ____, random_state=42)

# Print the category_desc counts from y_train
print(____[____].____)

Kodu Düzenle ve Çalıştır