Montagem das colunas
A última etapa da preparação dos dados é juntar todas as colunas de preditores numa só coluna.
Uma versão atualizada dos dados “ flights
”, que leva em conta todas as mudanças dos exercícios anteriores, tem as seguintes colunas de preditores:
mon
,dom
edow
carrier_idx
(valor indexado decarrier
)org_idx
(valor indexado deorg
)km
depart
duration
Observação: O argumento " truncate=False
" para o método " show()
" evita que os dados sejam cortados na saída.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa a classe que vai juntar os preditores.
- Crie um objeto assembler que vai te ajudar a juntar as colunas dos preditores em uma só coluna.
- Use o assembler pra criar uma nova coluna consolidada.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)