1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Co vlastně předpovídáme?

Které z těchto polí (neboli sloupců) je hodnota, kterou se snažíme předpovědět?

  • TAXES
  • SALESCLOSEPRICE
  • DAYSONMARKET
  • LISTPRICE

Pokyny

100 XP
  • Z uvedených sloupců urči, který z nich použijeme jako závislou proměnnou $Y$.
  • S využitím načteného datasetu df ho pomocí select() filtruj tak, aby obsahoval pouze závislou proměnnou. Výsledný dataframe ulož do proměnné Y_df.
  • Zobraz souhrnné statistiky závislé proměnné pomocí describe() na Y_df a výsledek vypiš voláním show().