1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Zpožděné lety s Random Forest

V tomto cvičení zkombinuješ křížovou validaci s metodami ansámblového učení. Natrénuješ klasifikátor Random Forest pro předpovídání zpožděných letů a pomocí křížové validace vybereš nejlepší hodnoty parametrů modelu.

Budeš hledat vhodné hodnoty pro tyto parametry:

  • featureSubsetStrategy — počet příznaků zvažovaných při dělení v každém uzlu a
  • maxDepth — maximální počet dělení podél libovolné větve.

Sestrojení tohoto modelu bohužel trvá příliš dlouho, takže metodu .fit() na pipeline spouštět nebudeme.

Třída RandomForestClassifier je již v prostředí naimportována.

Pokyny

100 XP
  • Vytvoř objekt klasifikátoru Random Forest.
  • Vytvoř objekt pro sestavení mřížky parametrů. Přidej body mřížky pro parametry featureSubsetStrategy a maxDepth.
  • Vytvoř evaluátor pro binární klasifikaci.
  • Vytvoř objekt křížového validátoru a zadej estimátor, mřížku parametrů a evaluátor. Zvol 5násobnou křížovou validaci.