ComeçarComece de graça

Criando uma UDF para dados vetoriais

Um dataframe df está disponível, com uma coluna output do tipo vector. As primeiras cinco linhas são mostradas no console.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Crie uma UDF chamada first_udf. Ela seleciona o primeiro elemento de uma coluna vetorial. Defina o resultado como 0,0 por padrão para qualquer item que não seja um vetor contendo pelo menos um elemento e faça o cast da saída para float.
  • Use a operação select em df para aplicar first_udf à coluna output.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)
Editar e executar o código