BaşlayınÜcretsiz Başlayın

Hepsini bir araya getirmek

Bir aritmi tespiti girişimine yeni katıldın ve arrh aritmi veri kümesi üzerinde bir model eğitmek istiyorsun. Random forest'ların Kaggle yarışmalarında sıkça kazandığını fark ettin, bu yüzden grid search kullanarak azami derinliği 2, 5 veya 10 olacak şekilde denemek istiyorsun. Ayrıca veri kümesinin boyutunun oldukça yüksek olduğunu gözlemledin, bu yüzden bir özellik seçimi yönteminin etkisini de değerlendirmek istiyorsun.

Yanlışlıkla aşırı öğrenme yapmamak için verini şimdiden böldün. Grid search için X_train ve y_train'i, özellik seçiminin yardımcı olup olmadığını anlamak içinse X_test ve y_test'i kullanacaksın. Dört veri kümesi katmanının tümü çalışma ortamında önceden yüklü. Ayrıca GridSearchCV(), train_test_split(), SelectKBest(), chi2() ve RandomForestClassifier'a rfc adıyla erişimin var.

Bu egzersiz

Python'da Machine Learning İş Akışları Tasarlama

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • RandomForestClassifier için azami derinlik 2, 5 ve 10 olacak şekilde grid search yap ve en iyi performans gösteren parametre ayarını sakla.
  • Şimdi tahmin ediciyi, yukarıda bulunan en iyi sonuç veren ağaç sayısı ayarıyla yeniden fit et.
  • chi2 puanlama fonksiyonuyla SelectKBest özellik seçiciyi uygula ve sınıflandırıcıyı yeniden fit et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find the best value for max_depth among values 2, 5 and 10
grid_search = GridSearchCV(
  ____(random_state=1), param_grid=____)
best_value = grid_search.____(
  ____, ____).best_params_['max_depth']

# Using the best value from above, fit a random forest
clf = rfc(
  random_state=1, ____=best_value).____(X_train, y_train)

# Apply SelectKBest with chi2 and pick top 100 features
vt = SelectKBest(____, k=____).____(X_train, y_train)

# Create a new dataset only containing the selected features
X_train_reduced = ____.transform(____)
Kodu Düzenle ve Çalıştır