Interi nelle UDF di PySpark
Questo esercizio riguarda le UDF e ti permette di capire come creare funzioni in PySpark! Mentre lo svolgi, pensa a cosa andrebbe a sostituire in un flusso di pulizia dei dati.
Ricorda: nel tuo workspace è già presente una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Registra la funzione
age_categorycome UDF chiamataage_category_udf. - Aggiungi al DataFrame
dfuna nuova colonna chiamata"category"che applichi la UDF per categorizzare le persone in base alla loro età. L'argomento perage_category_udf()è già fornito. - Mostra il DataFrame risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())
# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))
# Show df
age_category_df_2.____