1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Użycie Corr()

Stare powiedzenie „Korelacja nie oznacza przyczynowości" to ważne ostrzeżenie. Korelacja daje nam jednak dobry punkt wyjścia do szukania obiecujących cech do wykorzystania w modelach. W tym ćwiczeniu poczujesz, jak po raz pierwszy przeglądać dane w poszukiwaniu wzorców.

Przygotowano dla ciebie listę columns zawierającą nazwy kolumn. Oblicz korelację między tymi kolumnami a 'SALESCLOSEPRICE' i znajdź jej maksimum.

Instrukcje

100 XP
  • Użyj pętli for, aby przejść przez wszystkie elementy listy columns.
  • W każdej iteracji oblicz korelację między bieżącą kolumną a 'SALESCLOSEPRICE' za pomocą metody corr().
  • Dodaj logikę aktualizującą maksymalną zaobserwowaną korelację oraz nazwę odpowiadającej jej kolumny.
  • Wypisz nazwę kolumny, która ma najwyższą korelację z 'SALESCLOSEPRICE'.