CommencerCommencer gratuitement

Pandas UDF

Cet exercice porte sur les pandas UDF, pour vous entraîner à leur syntaxe. Pendant votre progression, remarquez les différences entre la UDF PySpark de l’exercice précédent et ce type de UDF.

Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Définissez la fonction add_ten_pandas() comme une pandas UDF.
  • Ajoutez une nouvelle colonne au DataFrame appelée "10_plus" qui applique la pandas UDF à la colonne "value" de df.
  • Affichez le DataFrame résultant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
    return column + 10

# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____
Modifier et exécuter le code