ComeçarComece de graça

Aplicando uma UDF a dados vetoriais

Há um dataframe disponível chamado df com uma coluna output do tipo vector. As cinco primeiras linhas são exibidas no console.

Uma UDF get_first_udf está disponível e seleciona o primeiro elemento de uma coluna vetorial.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Crie um novo dataframe chamado df_new adicionando uma nova coluna a df. Chame a nova coluna de label.
  • Mostre as cinco primeiras linhas de df_new.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Add label by applying the get_first_udf to output column
df_new = df.____('____', ____('____'))

# Show the first five rows 
df_new.____
Editar e executar o código