Pandas UDF's
Deze oefening gaat over Pandas UDF's, zodat je hun syntax kunt oefenen! Terwijl je hiermee bezig bent, let op de verschillen tussen de Pyspark UDF uit de vorige oefening en dit type UDF.
Onthoud: er staat al een SparkSession met de naam spark klaar in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Definieer de functie
add_ten_pandas()als een pandas UDF. - Voeg een nieuwe kolom toe aan de DataFrame met de naam
"10_plus"die de pandas UDF toepast op de kolom"value"vandf. - Toon de resulterende DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
return column + 10
# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____