IniziaInizia gratis

Interi nelle UDF di PySpark

Questo esercizio riguarda le UDF e ti permette di capire come creare funzioni in PySpark! Mentre lo svolgi, pensa a cosa andrebbe a sostituire in un flusso di pulizia dei dati.

Ricorda: nel tuo workspace è già presente una SparkSession chiamata spark!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Registra la funzione age_category come UDF chiamata age_category_udf.
  • Aggiungi al DataFrame df una nuova colonna chiamata "category" che applichi la UDF per categorizzare le persone in base alla loro età. L'argomento per age_category_udf() è già fornito.
  • Mostra il DataFrame risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Register the function age_category as a UDF
age_category_udf = ____(age_category, StringType())

# Apply your udf to the DataFrame
age_category_df_2 = age_category_df.withColumn("category", ____(age_category_df["age"]))

# Show df
age_category_df_2.____
Modifica ed esegui il codice