Applicare una UDF ai dati vettoriali
È disponibile un dataframe chiamato df con una colonna output di tipo vector. Le prime cinque righe sono mostrate nella console.
È disponibile una UDF get_first_udf che seleziona il primo elemento di una colonna vettoriale.
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Crea un nuovo dataframe chiamato
df_newaggiungendo una nuova colonna adf. Chiama la nuova colonnalabel. - Mostra le prime cinque righe di
df_new.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____