1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Natrénování modelu (modelů)

Teď už jsi konečně připraven/a natrénovat modely a vybrat ten nejlepší!

Křížová validace je bohužel velmi výpočetně náročný postup. Natrénování všech modelů by na DataCampu trvalo příliš dlouho.

Locálně bys to provedl/a pomocí tohoto kódu:

# Fit cross validation models
models = cv.fit(training)

# Extract the best model
best_lr = models.bestModel

Pamatuj, že trénovací data se jmenují training a k natrénování logistického regresního modelu používáš lr. Křížová validace vyhodnotila hodnoty parametrů regParam=0 a elasticNetParam=0 jako nejlepší. Jsou to výchozí hodnoty, takže před natrénováním modelu nemusíš s lr nic dalšího dělat.

Pokyny

100 XP
  • Vytvoř best_lr zavoláním lr.fit() na trénovacích datech training.
  • Vypiš best_lr a ověř, že jde o objekt třídy LogisticRegressionModel.