1. Обучение
  2. /
  3. Курса
  4. /
  5. Inżynieria cech z PySpark

Connected

упражнение

Głębsze cechy

W poprzednich ćwiczeniach pokazaliśmy, jak łączenie dwóch cech może tworzyć przydatne dodatkowe cechy dla modelu predykcyjnego. W tym ćwiczeniu wygenerujesz „głębsze" cechy, łącząc wpływ trzech zmiennych w jedną. Następnie sprawdzisz, czy bardziej złożone cechy zawsze przekładają się na lepsze predyktory.

Инструкции

100 XP
  • Utwórz nową cechę, dodając SQFTBELOWGROUND i SQFTABOVEGROUND, i zapisz wynik w nowej kolumnie Total_SQFT
  • Korzystając z Total_SQFT, utwórz kolejną cechę o nazwie BATHS_PER_1000SQFT przy użyciu BATHSTOTAL. Pamiętaj, aby przeskalować Total_SQFT do tysięcy
  • Użyj describe(), aby sprawdzić nowe wartości min, max i średnią dla najnowszej cechy BATHS_PER_1000SQFT. Czy coś rzuca się w oczy?
  • Utwórz dwa wykresy jointplot() z Total_SQFT i BATHS_PER_1000SQFT jako wartościami \(x\) oraz SALESCLOSEPRICE jako wartością \(y\), aby sprawdzić, który zapewnia lepsze dopasowanie R**2. Czy ta bardziej skomplikowana cecha wykazuje silniejszy związek z SALESCLOSEPRICE?