Criando uma UDF para dados vetoriais
Um dataframe df está disponível, com uma coluna output do tipo vector. As primeiras cinco linhas são mostradas no console.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Crie uma UDF chamada
first_udf. Ela seleciona o primeiro elemento de uma coluna vetorial. Defina o resultado como 0,0 por padrão para qualquer item que não seja um vetor contendo pelo menos um elemento e faça o cast da saída para float. - Use a operação
selectemdfpara aplicarfirst_udfà colunaoutput.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Selects the first element of a vector column
first_udf = ____(lambda x:
____(x.indices[0])
if (x and hasattr(x, "toArray") and x.____())
else 0.0,
FloatType())
# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)