1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Co chcemy przewidywać?

Które z tych pól (kolumn) jest wartością, którą chcemy przewidzieć?

  • TAXES
  • SALESCLOSEPRICE
  • DAYSONMARKET
  • LISTPRICE

Instrukcje

100 XP
  • Spośród wymienionych powyżej kolumn wskaż tę, która posłuży jako zmienna zależna $Y$.
  • Korzystając z wczytanego zbioru danych df, odfiltruj go do zmiennej zależnej za pomocą select(). Wynik zapisz w zmiennej Y_df.
  • Wyświetl statystyki opisowe zmiennej zależnej, wywołując describe() na Y_df, a następnie show(), aby je pokazać.