Použití uživatelsky definovaných funkcí v Sparku

Viděl/a jsi část síly vestavěných řetězcových funkcí Sparku při práci s DataFrames. Jakmile ale zpracování dat dosáhne určité složitosti, začne se z kódu stávat nepřehledné klubko vnořených volání funkcí. Právě tady se hodí uživatelsky definované funkce (UDF), které ti pomůžou s manipulací DataFrames.

V tomto cvičení budeš pracovat s DataFramem voter_df a nahradíš sloupec first_name kombinací křestního jména a prostředního jména.

Knihovna pyspark.sql.functions je dostupná pod aliasem F. Třídy z pyspark.sql.types jsou již naimportované.

Uprav funkci getFirstAndMiddle() tak, aby vracela řetězec jmen oddělených mezerou — vše kromě posledního prvku v seznamu jmen.
Definuj funkci jako uživatelsky definovanou funkci (UDF). Návratový typ by měl být řetězec.
Vytvoř nový sloupec first_and_middle_name v DataFramu voter_df pomocí své UDF.
Zobraz DataFrame.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení