1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Hlubší příznaky

V předchozích cvičeních jsme ukázali, jak kombinací dvou příznaků vznikají užitečné doplňkové příznaky pro prediktivní model. V tomto cvičení vytvoříš „hlubší" příznaky sloučením vlivu tří proměnných do jedné. Potom ověříš, jestli složitější příznaky vždy znamenají lepší prediktory.

Pokyny

100 XP
  • Vytvoř nový příznak sečtením SQFTBELOWGROUND a SQFTABOVEGROUND a ulož výsledek do nového sloupce Total_SQFT
  • Pomocí Total_SQFT a BATHSTOTAL vytvoř další příznak BATHS_PER_1000SQFT. Nezapomeň převést Total_SQFT na tisíce
  • Pomocí describe() zjisti nové minimum, maximum a průměr nejnovějšího příznaku BATHS_PER_1000SQFT. Všimneš si něčeho zvláštního?
  • Vytvoř dva grafy jointplot() s hodnotami Total_SQFT a BATHS_PER_1000SQFT na ose \(x\) a SALESCLOSEPRICE na ose \(y\), abys zjistil/a, který příznak lépe odpovídá hodnotě R**2. Má tento složitější příznak silnější vztah s SALESCLOSEPRICE?