1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Odstranění neplatných řádků

Teď, když jsi úspěšně odstranil/a řádky s komentáři, dostaneš informace o obecném formátu dat. DataFrame by měl obsahovat minimálně 5 sloupců oddělených tabulátorem. Pamatuj, že původní DataFrame má pouze jeden sloupec, takže data bude potřeba rozdělit podle znaku tabulátoru (\t).

DataFrame annotations_df je již k dispozici s odstraněnými řádky komentářů. Knihovna spark.sql.functions je dostupná pod aliasem F. Počáteční počet řádků v DataFrame je uložen v proměnné initial_count.

Pokyny

100 XP
  • Vytvoř novou proměnnou tmp_fields rozdělením sloupce '_c0' z DataFrame annotations_df podle znaku tabulátoru.
  • Přidej do DataFrame annotations_df nový sloupec 'colcount' představující počet polí definovaných v předchozím kroku.
  • Odfiltruj z DataFrame annotations_df všechny řádky, které obsahují méně než 5 polí.
  • Spočítej počet řádků v DataFrame a porovnej ho s hodnotou initial_count.