ComeçarComece de graça

Monte um vetor

A última etapa do Pipeline é combinar todas as colunas que contêm nossas variáveis independentes em uma única coluna. Isso precisa ser feito antes que a modelagem seja realizada, pois toda rotina de modelagem do Spark espera que os dados estejam nesse formato. Você pode fazer isso armazenando cada um dos valores de uma coluna como uma entrada em um vetor. Então, do ponto de vista do modelo, cada observação é um vetor que contém todas as informações sobre ela e um rótulo que informa ao modelador a que valor essa observação corresponde.

Por esse motivo, o submódulo pyspark.ml.feature contém uma classe chamada VectorAssembler. Esse Transformer recebe todas as colunas que você especificar e as combina em um novo vetor de colunas.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Crie um VectorAssembler chamando VectorAssembler() com os nomes de inputCols como uma lista e o nome "features" de outputCol.

    • A lista de colunas deve ser ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Editar e executar o código