Aplicar una UDF a datos vectoriales
Tienes disponible un dataframe llamado df con una columna output de tipo vector. Sus primeras cinco filas se muestran en la consola.
Hay una UDF get_first_udf que selecciona el primer elemento de una columna de tipo vector.
Este ejercicio forma parte del curso
Introducción a Spark SQL en Python
Instrucciones del ejercicio
- Crea un nuevo dataframe llamado
df_newañadiendo una columna nueva adf. Llama a la nueva columnalabel. - Muestra las primeras cinco filas de
df_new.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____