1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Pivot & Join

Umět rozložit a pivotovat složené pole je skvělé, ale zůstaneš s dataframem obsahujícím pouze pivotované hodnoty. Aby to bylo skutečně užitečné, budeš je muset zpětně spojit s původním datasetem! Po spojení datasetů bude mít hodně NULL hodnot v nově vytvořených sloupcích – protože víme, jak vznikly, můžeme je bezpečně nahradit nulou: daný atribut buď existuje, nebo ne.

Pokyny

100 XP
  • Pivotuj hodnoty ex_garage_list tak, že je seskupíš podle identifikátoru záznamu NO pomocí groupBy() – k agregaci constant_val použij připravený kód, který ignoruje prázdné hodnoty a bere první dostupnou.
  • Připoj piv_df k df levým joinem s podmínkou NO.
  • Vytvoř seznam sloupců zfill_cols pro doplnění nul pomocí atributu columns na piv_df.
  • Doplň nuly do sloupců pivotovaného dataframu zfill_cols pomocí fillna() s parametrem subset.