1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Rozdíly

Pojďme prozkoumat, jak vytvářet nové příznaky z těch existujících. Na středozápadě USA mají rodinné domy často kolem sebe zahradní pozemek. V tomto cvičení vytvoříš nový příznak 'YARD_SIZE' a podíváš se, jestli koreluje s naší cílovou proměnnou.

Pokyny

100 XP
  • Pomocí withColumn() vytvoř nový sloupec LOT_SIZE_SQFT a převeď ACRES na čtvereční stopy vynásobením hodnotou acres_to_sqfeet (převodní koeficient).
  • Vytvoř další nový sloupec YARD_SIZE odečtením FOUNDATIONSIZE od LOT_SIZE_SQFT.
  • Spusť corr() pro každou ze vstupních proměnných YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT vůči cílové proměnné SALESCLOSEPRICE. Vykazuje nový příznak silnější korelaci než každá z jeho složek samostatně?