1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Liczby całkowite w UDF PySpark

To ćwiczenie dotyczy UDF (funkcji definiowanych przez użytkownika) – poznasz, jak tworzyć własne funkcje w PySpark! Pracując nad nim, zastanów się, co taki mechanizm mógłby zastąpić w procesie czyszczenia danych.

Pamiętaj, że w twoim obszarze roboczym dostępna jest już sesja SparkSession o nazwie spark!

Instrukcje

100 XP
  • Zarejestruj funkcję age_category jako UDF o nazwie age_category_udf.
  • Dodaj do ramki danych df nową kolumnę o nazwie "category", która stosuje UDF do kategoryzowania osób na podstawie ich wieku. Argument dla age_category_udf() jest już podany.
  • Wyświetl wynikową ramkę danych.