1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Rozdělení a rozbalení hodnot

Práce se složeným polem jako GARAGEDESCRIPTION a jeho přeměna na něco užitečného je vícekrokový proces. Vyplatí se nejdříve zjistit, jakou hodnotu z jeho rozbalení získáš. V tomto příkladu převedeme řetězec na pole (array), rozbalíme ho a prohlédneme si unikátní hodnoty.

Pokyny

100 XP
  • Importuj funkce split() a explode() z modulu pyspark.sql.functions.
  • Pomocí split() vytvoř nový sloupec garage_list rozdělením df['GARAGEDESCRIPTION'] podle ', ' (čárka a mezera).
  • Pomocí explode() vytvoř nový záznam pro každou hodnotu v df['garage_list'] a ulož výsledek do nového sloupce ex_garage_list.
  • Použij distinct() k získání unikátních hodnot sloupce ex_garage_list a zobraz prvních 100 řádků pomocí show, přičemž každý řádek zkrať na 50 znaků.