1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w PySpark

Connected

ćwiczenie

Używanie funkcji definiowanych przez użytkownika w Spark

Widzisz już, jak duże możliwości dają wbudowane funkcje tekstowe Sparka przy manipulowaniu DataFrames. Jednak w pewnym momencie przetwarzanie danych bez tworzenia skomplikowanego splotu zagnieżdżonych wywołań staje się bardzo trudne. To właśnie miejsce, gdzie przydają się funkcje definiowane przez użytkownika (UDF) – pozwalają manipulować DataFrames w przejrzysty sposób.

W tym ćwiczeniu skorzystasz z DataFrame voter_df i zastąpisz kolumnę first_name kolumną zawierającą imię oraz drugie imię.

Biblioteka pyspark.sql.functions jest dostępna pod aliasem F. Klasy z pyspark.sql.types są już zaimportowane.

Instrukcje

100 XP
  • Zmodyfikuj funkcję getFirstAndMiddle() tak, aby zwracała oddzielone spacją imiona z listy – z pominięciem ostatniego elementu.
  • Zdefiniuj tę funkcję jako funkcję definiowaną przez użytkownika (UDF). Powinna zwracać typ tekstowy.
  • Utwórz nową kolumnę w voter_df o nazwie first_and_middle_name, używając swojej funkcji UDF.
  • Wyświetl DataFrame.