1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Sestavení sloupců

Poslední fází přípravy dat je sloučení všech prediktorových sloupců do jednoho.

Aktualizovaná verze dat flights, která zohledňuje všechny změny z předchozích cvičení, obsahuje tyto prediktorové sloupce:

  • mon, dom a dow
  • carrier_idx (indexovaná hodnota z carrier)
  • org_idx (indexovaná hodnota z org)
  • km
  • depart
  • duration

Poznámka: Argument truncate=False metody show() zabraňuje zkrácení dat ve výstupu.

Pokyny

100 XP
  • Importuj třídu, která slouží k sestavení prediktorů.
  • Vytvoř objekt assembleru, který ti umožní sloučit prediktorové sloupce do jednoho.
  • Pomocí assembleru vygeneruj nový sloučený sloupec.