1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data with PySpark

Connected

cvičení

Ověření řádků pomocí joinu

Další způsob filtrování dat je použití joinů k odstranění neplatných záznamů. Potřebuješ ověřit, že názvy složek odpovídají očekávaným hodnotám z DataFramu valid_folders_df. DataFrame split_df je ve stavu, ve kterém jsi ho naposledy nechal/a – obsahuje skupinu rozdělených sloupců.

Objekt spark je k dispozici a pyspark.sql.functions je importován jako F.

Pokyny

100 XP
  • Přejmenuj sloupec _c0 na folder v DataFramu valid_folders_df.
  • Zjisti počet řádků v split_df.
  • Spoj oba DataFramy podle názvu složky a výsledný DataFrame pojmenuj joined_df. Nezapomeň použít broadcast na menší DataFrame.
  • Zkontroluj, kolik řádků ve výsledném DataFramu zbylo, a porovnej to s původním počtem.