Pandas-UDFs
In dieser Übung geht es um Pandas-UDFs, damit du ihre Syntax üben kannst! Achte beim Bearbeiten darauf, wie sich die PySpark-UDF aus der letzten Übung von diesem UDF-Typ unterscheidet.
Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Definiere die Funktion
add_ten_pandas()als pandas UDF. - Füge dem DataFrame eine neue Spalte
"10_plus"hinzu, die die pandas UDF auf diedf-Spalte"value"anwendet. - Zeige das resultierende DataFrame an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
return column + 10
# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____