Monte um vetor
A última etapa do Pipeline
é combinar todas as colunas que contêm nossas variáveis independentes em uma única coluna. Isso precisa ser feito antes que a modelagem seja realizada, pois toda rotina de modelagem do Spark espera que os dados estejam nesse formato. Você pode fazer isso armazenando cada um dos valores de uma coluna como uma entrada em um vetor. Então, do ponto de vista do modelo, cada observação é um vetor que contém todas as informações sobre ela e um rótulo que informa ao modelador a que valor essa observação corresponde.
Por esse motivo, o submódulo pyspark.ml.feature
contém uma classe chamada VectorAssembler
. Esse Transformer
recebe todas as colunas que você especificar e as combina em um novo vetor de colunas.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Crie um
VectorAssembler
chamandoVectorAssembler()
com os nomes deinputCols
como uma lista e o nome"features"
deoutputCol
.- A lista de colunas deve ser
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"]
.
- A lista de colunas deve ser
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)