Další parsování

Tento dataset jsi výrazně přeformátoval/a, ale ještě pár věcí zbývá. Je potřeba připravit data ve sloupcích pro pozdější analýzu a odstranit několik pomocných sloupců.

K dispozici máš kontext spark a pyspark.sql.functions je importován pod aliasem F. Typy z pyspark.sql.types jsou již naimportované. DataFrame split_df je ve stavu, v jakém jsi ho naposledy nechal/a. Nezapomeň, že na konzoli můžeš použít .printSchema() pro zobrazení názvů a typů sloupců.

⚠️ Poznámka: Pokud se zobrazí AttributeError, obnov cvičení a klikni na Run Solution bez předchozího kliknutí na Run Code.

Vytvoř novou funkci retriever, která přijímá dva argumenty: rozdělené sloupce (cols) a celkový počet sloupců (colcount). Tato funkce by měla vrátit seznam položek, které ještě nebyly definovány jako sloupce (tedy vše za položkou 4 v seznamu).
Definuj tuto funkci jako Spark UDF, která vrací pole řetězců (Array of strings).
Vytvoř nový sloupec dog_list pomocí UDF a dostupných sloupců v DataFrame.
Odstraň sloupce _c0, colcount a split_cols.

Exercise

Další parsování

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise