Integer in PySpark-UDFs
Diese Übung behandelt UDFs, damit du das Erstellen von Funktionen in PySpark verstehst! Überlege dir beim Bearbeiten der Aufgabe, welchen Schritt das in einem Data-Cleaning-Workflow ersetzen würde.
Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Registriere die Funktion
age_categoryals UDF namensage_category_udf. - Füge dem DataFrame
dfeine neue Spalte"category"hinzu, die die UDF anwendet, um Personen anhand ihres Alters zu kategorisieren. Das Argument fürage_category_udf()ist bereits vorgegeben. - Zeige das resultierende DataFrame an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____