1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Rozdělení do sloupců

Data jsi už pořádně vyčistil/a – neplatné řádky jsou z DataFrame pryč. Teď chceš provést další transformace a z obsahu DataFrame vytvořit konkrétní smysluplné sloupce.

Máš k dispozici kontext spark a nejnovější verzi DataFrame annotations_df. Knihovna pyspark.sql.functions je dostupná pod aliasem F.

Pokyny

100 XP
  • Rozděl obsah sloupce '_c0' podle znaku tabulátoru a výsledek ulož do proměnné split_cols.
  • Na základě prvních čtyř položek výše uvedené proměnné přidej do DataFrame s názvem split_df tyto sloupce: folder, filename, width, height.
  • Přidej proměnnou split_cols jako sloupec.