1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Inżynieria cech z PySpark

Connected

แบบฝึกหัด

Różnice

Przeanalizujmy tworzenie nowych cech na podstawie już istniejących. W środkowej części USA wiele domów jednorodzinnych otaczają działki z zielenią. W tym ćwiczeniu stworzysz nową cechę o nazwie 'YARD_SIZE', a następnie sprawdzisz, czy ma ona korelację ze zmienną wynikową.

คำแนะนำ

100 XP
  • Utwórz nową kolumnę za pomocą withColumn() o nazwie LOT_SIZE_SQFT i przelicz wartości z ACRES na stopy kwadratowe, mnożąc przez współczynnik konwersji acres_to_sqfeet.
  • Utwórz kolejną nową kolumnę o nazwie YARD_SIZE, odejmując FOUNDATIONSIZE od LOT_SIZE_SQFT.
  • Uruchom corr() dla każdej z niezależnych zmiennych YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT względem zmiennej zależnej SALESCLOSEPRICE. Czy nowa cecha wykazuje silniejszą korelację niż każdy z jej składników?