Montagem de colunas
O estágio final da preparação dos dados é consolidar todas as colunas de previsão em uma única coluna.
Uma versão atualizada dos dados do site flights
, que leva em conta todas as alterações dos exercícios anteriores, tem as seguintes colunas de previsão:
mon
,dom
edow
carrier_idx
(valor indexado decarrier
)org_idx
(valor indexado deorg
)km
depart
duration
Observação: O argumento truncate=False
do método show()
impede que os dados sejam truncados na saída.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Importe a classe que montará os preditores.
- Crie um objeto de montagem que permitirá que você mescle as colunas de preditores em uma única coluna.
- Use o montador para gerar uma nova coluna consolidada.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)