1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Praca z kolumnami tablicowymi

Dostępna jest funkcja SQL udf, a także ramka danych df_before typu DataFrame[doc: array<string>, in: array<string>, out: array<string>].

Zmienna TRIVIAL_TOKENS jest zbiorem. Zawiera pewne słowa, które chcemy usunąć.

Instrukcje

100 XP
  • Wyświetl wiersze z df_before, w których doc zawiera element 5.
  • Utwórz UDF, który usuwa z kolumny tablicowej elementy znajdujące się w TRIVIAL_TOKENS. Zachowanie kolejności nie jest wymagane.
  • Usuń tokeny z kolumn in i out w df2, które pojawiają się w TRIVIAL_TOKENS.