1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Vytvoření mřížky

Teď je potřeba vytvořit mřížku hodnot, přes které budeme prohledávat optimální hyperparametry. Submodul pyspark.ml.tuning obsahuje třídu ParamGridBuilder, která přesně tohle umí (možná si už začínáš všímat vzoru – PySpark má submodul skoro na všechno!).

K sestavení mřížky pro křížovou validaci použiješ metody .addGrid() a .build(). Metoda .addGrid() přijímá parametr modelu (atribut Estimatoru lr, který jsi vytvořil/a v jednom z předchozích cvičení) a seznam hodnot, které chceš vyzkoušet. Metoda .build() nepřijímá žádné argumenty – jednoduše vrátí sestavenou mřížku, kterou využiješ později.

Pokyny

100 XP
  • Importuj submodul pyspark.ml.tuning pod aliasem tune.
  • Zavolej konstruktor třídy ParamGridBuilder() bez argumentů a výsledek ulož jako grid.
  • Zavolej metodu .addGrid() na objektu grid s argumenty lr.regParam jako prvním a np.arange(0, .1, .01) jako druhým. Tato funkce z modulu numpy (importovaného as np) vytvoří seznam čísel od 0 do .1 s krokem .01. Přepiš proměnnou grid výsledkem.
  • Aktualizuj grid znovu – zavolej metodu .addGrid() podruhé a vytvoř mřížku pro lr.elasticNetParam obsahující pouze hodnoty [0, 1].
  • Zavolej metodu .build() na objektu grid a přepiš ho výsledkem.