1. Learn
  2. /
  3. Courses
  4. /
  5. Cleaning Data with PySpark

Connected

Exercise

Další parsování

Tento dataset jsi výrazně přeformátoval/a, ale ještě pár věcí zbývá. Je potřeba připravit data ve sloupcích pro pozdější analýzu a odstranit několik pomocných sloupců.

K dispozici máš kontext spark a pyspark.sql.functions je importován pod aliasem F. Typy z pyspark.sql.types jsou již naimportované. DataFrame split_df je ve stavu, v jakém jsi ho naposledy nechal/a. Nezapomeň, že na konzoli můžeš použít .printSchema() pro zobrazení názvů a typů sloupců.

⚠️ Poznámka: Pokud se zobrazí AttributeError, obnov cvičení a klikni na Run Solution bez předchozího kliknutí na Run Code.

Instructions

100 XP
  • Vytvoř novou funkci retriever, která přijímá dva argumenty: rozdělené sloupce (cols) a celkový počet sloupců (colcount). Tato funkce by měla vrátit seznam položek, které ještě nebyly definovány jako sloupce (tedy vše za položkou 4 v seznamu).
  • Definuj tuto funkci jako Spark UDF, která vrací pole řetězců (Array of strings).
  • Vytvoř nový sloupec dog_list pomocí UDF a dostupných sloupců v DataFrame.
  • Odstraň sloupce _c0, colcount a split_cols.