Montagem das colunas
A última etapa da preparação dos dados é juntar todas as colunas de preditores numa só coluna.
Uma versão atualizada dos dados “ flights ”, que leva em conta todas as mudanças dos exercícios anteriores, tem as seguintes colunas de preditores:
mon,domedowcarrier_idx(valor indexado decarrier)org_idx(valor indexado deorg)kmdepartduration
Observação: O argumento " truncate=False " para o método " show() " evita que os dados sejam cortados na saída.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa a classe que vai juntar os preditores.
- Crie um objeto assembler que vai te ajudar a juntar as colunas dos preditores em uma só coluna.
- Use o assembler pra criar uma nova coluna consolidada.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)