ComenzarEmpieza gratis

Aplicar una UDF a datos vectoriales

Tienes disponible un dataframe llamado df con una columna output de tipo vector. Sus primeras cinco filas se muestran en la consola.

Hay una UDF get_first_udf que selecciona el primer elemento de una columna de tipo vector.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Crea un nuevo dataframe llamado df_new añadiendo una columna nueva a df. Llama a la nueva columna label.
  • Muestra las primeras cinco filas de df_new.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Editar y ejecutar código