LoslegenKostenlos loslegen

Pandas-UDFs

In dieser Übung geht es um Pandas-UDFs, damit du ihre Syntax üben kannst! Achte beim Bearbeiten darauf, wie sich die PySpark-UDF aus der letzten Übung von diesem UDF-Typ unterscheidet.

Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Definiere die Funktion add_ten_pandas() als pandas UDF.
  • Füge dem DataFrame eine neue Spalte "10_plus" hinzu, die die pandas UDF auf die df-Spalte "value" anwendet.
  • Zeige das resultierende DataFrame an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
    return column + 10

# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____
Code bearbeiten und ausführen