Odstranění neplatných řádků

Teď, když jsi úspěšně odstranil/a řádky s komentáři, dostaneš informace o obecném formátu dat. DataFrame by měl obsahovat minimálně 5 sloupců oddělených tabulátorem. Pamatuj, že původní DataFrame má pouze jeden sloupec, takže data bude potřeba rozdělit podle znaku tabulátoru (\t).

DataFrame annotations_df je již k dispozici s odstraněnými řádky komentářů. Knihovna spark.sql.functions je dostupná pod aliasem F. Počáteční počet řádků v DataFrame je uložen v proměnné initial_count.

Vytvoř novou proměnnou tmp_fields rozdělením sloupce '_c0' z DataFrame annotations_df podle znaku tabulátoru.
Přidej do DataFrame annotations_df nový sloupec 'colcount' představující počet polí definovaných v předchozím kroku.
Odfiltruj z DataFrame annotations_df všechny řádky, které obsahují méně než 5 polí.
Spočítej počet řádků v DataFrame a porovnej ho s hodnotou initial_count.

cvičení

Odstranění neplatných řádků

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení