1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Procvičování tvorby UDF

Někdy data potřebují transformaci, kterou vestavěné funkce nepodporují. Právě k tomu slouží vlastní uživatelsky definovaná funkce ("UDF").

SQL funkce udf je k dispozici.

Máš k dispozici dataframe df2 typu DataFrame[doc: array<string>, in: array<string>, out: array<string>]. Jeho sloupec doc obsahuje jednoduché tokeny.

Následující kód zobrazí prvních 20 řádků df2, kde doc obsahuje '1':

df2.where(array_contains('doc','1')).show()

Máš před sebou dva úkoly:

  1. Zajisti, aby transformovaná data obsahovala pouze neprázdné vektory.
  2. Dataframe má sloupec obsahující pole řetězců, kde každé pole má právě jeden prvek. Tento sloupec chceš transformovat na řetězec.

Pokyny

100 XP
  • Vytvoř UDF, která vrátí true právě tehdy, když je hodnota neprázdný vektor – použij numNonzeros().
  • Vytvoř UDF, která vrátí první prvek pole jako řetězec.