Tabakalı örnekleme
Artık volunteer veri kümesindeki category_desc sütunundaki sınıf etiketlerinin dağılımının dengesiz olduğunu biliyorsun. category_desc'i tahmin edecek bir model eğitmek istiyorsan, modelin tüm veri kümesini temsil eden bir veri örneği üzerinde eğitildiğinden emin olmalısın. Tabakalı örnekleme bunu başarmanın bir yoludur!
Bu egzersiz
Python'da Machine Learning için Ön İşleme
kursunun bir parçasıdırEgzersiz talimatları
- Özelliklerden oluşan bir DataFrame oluştur:
X.category_descdışındaki tüm sütunları al. - Etiketlerden oluşan bir DataFrame oluştur:
y. Bunucategory_descsütunundan oluştur. - Etiketlerdeki sınıf dağılımının her iki sette de aynı olduğundan emin olarak
Xvey'yi eğitim ve test setlerine ayır. y_trainiçindeki etiketleri ve sayılarını.value_counts()ile yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a DataFrame with all columns except category_desc
X = volunteer.____(____, axis=____)
# Create a category_desc labels dataset
y = ____[[____]]
# Use stratified sampling to split up the dataset according to the y dataset
X_train, X_test, y_train, y_test = ____(____, ____, ____, random_state=42)
# Print the category_desc counts from y_train
print(____[____].____)