1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Zkoumání neplatných řádků

Filtrování řádků pomocí joinu ti šlo skvěle – někdy ale potřebuješ neplatná data prozkoumat podrobněji. Taková data můžeš uložit pro pozdější zpracování nebo k ladění datových zdrojů.

Tvým cílem je najít rozdíl mezi dvěma DataFramy a neplatné řádky uložit.

Objekt spark je definovaný a pyspark.sql.functions jsou importovány jako F. Původní DataFrame split_df a joinovaný DataFrame joined_df jsou dostupné ve stejném stavu jako dříve.

Pokyny

100 XP
  • Zjisti počty řádků v každém DataFrame.
  • Vytvoř DataFrame obsahující pouze neplatné řádky.
  • Ověř, že počet řádků nového DataFrame odpovídá očekávání.
  • Zjisti počet odstraněných řádků s unikátními hodnotami složek.