1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Opóźnione loty z losowym lasem

W tym ćwiczeniu połączysz walidację krzyżową z metodami zespołowymi. Wytrenujesz klasyfikator Random Forest do przewidywania opóźnionych lotów, używając walidacji krzyżowej do wyboru najlepszych wartości parametrów modelu.

Znajdziesz dobre wartości dla następujących parametrów:

  • featureSubsetStrategy — liczba cech branych pod uwagę przy podziale w każdym węźle oraz
  • maxDepth — maksymalna liczba podziałów wzdłuż dowolnej gałęzi.

Niestety budowanie tego modelu trwa zbyt długo, dlatego nie będziemy uruchamiać metody .fit() na potoku.

Klasa RandomForestClassifier została już zaimportowana do sesji.

Instrukcje

100 XP
  • Utwórz obiekt klasyfikatora Random Forest.
  • Utwórz obiekt konstruktora siatki parametrów. Dodaj punkty siatki dla parametrów featureSubsetStrategy i maxDepth.
  • Utwórz ewaluator klasyfikacji binarnej.
  • Utwórz obiekt walidatora krzyżowego, podając estymator, siatkę parametrów i ewaluator. Wybierz walidację krzyżową z 5 podziałami.