1. 학습
  2. /
  3. 강의
  4. /
  5. Projektowanie przepływów pracy uczenia maszynowego w Pythonie

Connected

연습 문제

Składamy wszystko razem

Właśnie dołączyłeś do startupu zajmującego się wykrywaniem arytmii i chcesz wytrenować model na zbiorze danych arrh. Zauważasz, że lasy losowe wygrywają wiele konkursów na Kaggle, dlatego chcesz je wypróbować z maksymalną głębokością 2, 5 lub 10, używając przeszukiwania siatki hiperparametrów. Zwracasz też uwagę, że wymiarowość zbioru danych jest dość wysoka, więc chcesz zbadać wpływ metody selekcji cech.

Aby uniknąć przypadkowego przeuczenia, dane zostały już podzielone. Do przeszukiwania siatki użyjesz X_train i y_train, a do oceny wpływu selekcji cech – X_test i y_test. Wszystkie cztery podzbiory danych są wczytane do środowiska. Masz też dostęp do GridSearchCV(), train_test_split(), SelectKBest(), chi2() oraz RandomForestClassifier jako rfc.

지침

100 XP
  • Użyj przeszukiwania siatki, aby przetestować maksymalną głębokość 2, 5 i 10 dla RandomForestClassifier, a następnie zapisz najlepsze ustawienie parametrów.
  • Ponownie dopasuj estymator, używając najlepszej liczby estymatorów wyznaczonej powyżej.
  • Zastosuj selektor cech SelectKBest z funkcją oceniającą chi2 i ponownie dopasuj klasyfikator.