Aplicando uma UDF a dados vetoriais
Há um dataframe disponível chamado df com uma coluna output do tipo vector. As cinco primeiras linhas são exibidas no console.
Uma UDF get_first_udf está disponível e seleciona o primeiro elemento de uma coluna vetorial.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Crie um novo dataframe chamado
df_newadicionando uma nova coluna adf. Chame a nova coluna delabel. - Mostre as cinco primeiras linhas de
df_new.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))
# Show the first five rows
df_new.____