1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Odstranění seznamu sloupců

Náš dataset je bohatý na příznaky, ale ne všechny jsou užitečné. Některé se budou jen těžko upravovat do použitelné podoby. Pojďme prozatím odstranit sloupce, které pro nás nejsou okamžitě přínosné.

  • 'STREETNUMBERNUMERIC': Číslo popisné domu
  • 'FIREPLACES': Počet krbů v domě
  • 'LOTSIZEDIMENSIONS': Volný text popisující tvar pozemku
  • 'LISTTYPE': Pevný seznam hodnot typu prodeje
  • 'ACRES': Numerická rozloha pozemku

Pokyny

100 XP
  • Přečti si popisy sloupců výše a prozkoumej jejich 30 nejčastějších hodnot pomocí show() – dataframe je již vyfiltrovaný na uvedené sloupce jako df.
  • Vytvoř seznam dvou sloupců, které chceš odstranit kvůli jejich malé relevanci pro předpověď cen nemovitostí – pojmenuj ho cols_to_drop. Nezapomeň, že počítače pracují pouze s čísly a nerozumí kontextu.
  • Pomocí funkce drop() odstraň sloupce ze seznamu cols_to_drop z dataframu df.