1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Použití Corr()

Staré přísloví „korelace neznamená příčinnost" nás nabádá k opatrnosti. Přesto nám korelace dobře napoví, kde hledat slibné příznaky pro naše modely. V tomto cvičení si vyzkoušíš, jak procházet data a hledat v nich vzory poprvé.

Seznam columns s názvy sloupců je už připravený. Tvým úkolem je vypočítat korelaci mezi těmito sloupci a 'SALESCLOSEPRICE' a najít její maximum.

Pokyny

100 XP
  • Pomocí cyklu for projdi všechny sloupce v columns.
  • V každé iteraci vypočítej korelaci mezi aktuálním sloupcem a 'SALESCLOSEPRICE' pomocí metody corr().
  • Přidej logiku, která průběžně aktualizuje nejvyšší zaznamenanou korelaci a název příslušného sloupce.
  • Vypiš název sloupce s nejvyšší korelací s 'SALESCLOSEPRICE'.