Pandas UDF
Questo esercizio riguarda le Pandas UDF, così puoi fare pratica con la loro sintassi! Mentre lo svolgi, fai attenzione alle differenze tra la UDF di PySpark dell’esercizio precedente e questo tipo di UDF.
Ricorda: nel tuo workspace è già presente una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Definisci la funzione
add_ten_pandas()come una pandas UDF. - Aggiungi un nuova colonna al DataFrame chiamata
"10_plus"che applichi la pandas UDF alla colonna"value"didf. - Mostra il DataFrame risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define a Pandas UDF that adds 10 to each element in a vectorized way
@____(DoubleType())
def add_ten_pandas(column):
return column + 10
# Apply the UDF and show the result
df.withColumn("10_plus", ____)
df.____