LoslegenKostenlos loslegen

Integer in PySpark-UDFs

Diese Übung behandelt UDFs, damit du das Erstellen von Funktionen in PySpark verstehst! Überlege dir beim Bearbeiten der Aufgabe, welchen Schritt das in einem Data-Cleaning-Workflow ersetzen würde.

Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Registriere die Funktion age_category als UDF namens age_category_udf.
  • Füge dem DataFrame df eine neue Spalte "category" hinzu, die die UDF anwendet, um Personen anhand ihres Alters zu kategorisieren. Das Argument für age_category_udf() ist bereits vorgegeben.
  • Zeige das resultierende DataFrame an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())

# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))

# Show df
age_category_df_2.____
Code bearbeiten und ausführen