1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Inżynieria cech z PySpark

Connected

แบบฝึกหัด

Wizualizacje w praktyce: lmplot

Wykresy modelu liniowego pomagają sprawdzić, czy zmienne mają związek ze zmienną zależną. Jeśli taki związek istnieje, są dobrymi kandydatami do uwzględnienia w analizie. Jeśli go nie ma, nie oznacza to, że należy je odrzucić – może to oznaczać, że trzeba je wcześniej przetworzyć lub przekształcić.

Biblioteka seaborn jest dostępna w twoim środowisku pod standardowym aliasem sns.

คำแนะนำ

100 XP
  • Korzystając z wczytanego zbioru danych df, ogranicz go do kolumn 'SALESCLOSEPRICE' i 'LIVINGAREA' za pomocą select().
  • Pobierz losową próbkę 50% wierszy z ramki danych przy użyciu sample() – bez powtórzeń, ustawiając ziarno losowości na 42.
  • Przekształć Spark DataFrame na obiekt pandas.DataFrame() za pomocą toPandas().
  • Używając kolumny 'SALESCLOSEPRICE' jako zmiennej zależnej i 'LIVINGAREA' jako zmiennej niezależnej, narysuj wykres modelu liniowego za pomocą funkcji lmplot() z biblioteki seaborn.