1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do Spark SQL v Pythonu

Connected

cvičení

Práce se sloupcovými poli

K dispozici máš SQL funkci udf a také dataframe df_before typu DataFrame[doc: array<string>, in: array<string>, out: array<string>].

Proměnná TRIVIAL_TOKENS je množina. Obsahuje určitá slova, která chceme odstranit.

Pokyny

100 XP
  • Zobraz řádky df_before, kde doc obsahuje prvek 5.
  • Vytvoř UDF, které ze sloupcového pole odstraní prvky obsažené v TRIVIAL_TOKENS. Pořadí prvků nemusí být zachováno.
  • Z sloupců in a out v df2 odstraň tokeny, které se vyskytují v TRIVIAL_TOKENS.