1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Úprava sloupců DataFramu

V předchozím cvičení jsi odfiltroval/a řádky, které neodpovídaly formátu jména. Teď tě manažerka požádala, abys na základě té práce vytvořil/a dva nové sloupce – first_name a last_name. Sloupec VOTER_NAME rozděl podle mezer na jednotlivá slova. Poslední slovo bude last_name, všechna ostatní slova pak first_name. V tomto cvičení využiješ nové funkce: .split(), .size() a .getItem(). Metoda .getItem(index) přijímá celé číslo a vrátí odpovídající prvek ze sloupce. Funkce .split() a .size() jsou součástí knihovny pyspark.sql.functions.

Měj na paměti, že tyto operace jsou vždy do určité míry specifické pro daný případ použití. Důležitější než konkrétní podoba formátu je to, aby data formátu odpovídala. Čištění dat zřídkakdy slouží jen jednomu člověku – soulad s definovaným formátem usnadňuje sdílení dat v budoucnu (například Pavel se nemusí starat o jména, protože Markéta dataset už vyčistila).

Filtrovaný DataFrame voter_df z předchozího cvičení je k dispozici pod názvem voter_df. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Pokyny

100 XP
  • Přidej nový sloupec splits, který bude obsahovat seznam možných částí jména.
  • Pomocí metody getItem() vytvoř nový sloupec first_name.
  • Vezmi poslední prvek seznamu splits a vytvoř sloupec last_name.
  • Odstraň sloupec splits a zobraz aktualizovaný voter_df.