Pandas UDF
Cet exercice porte sur les pandas UDF, pour vous entraîner à leur syntaxe. Pendant votre progression, remarquez les différences entre la UDF PySpark de l’exercice précédent et ce type de UDF.
Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Définissez la fonction
add_ten_pandas()comme une pandas UDF. - Ajoutez une nouvelle colonne au DataFrame appelée
"10_plus"qui applique la pandas UDF à la colonne"value"dedf. - Affichez le DataFrame résultant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
return column + 10
# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____