Montagem de colunas
O estágio final da preparação dos dados é consolidar todas as colunas de previsão em uma única coluna.
Uma versão atualizada dos dados flights, que leva em conta todas as alterações dos exercícios anteriores, tem as seguintes colunas de previsão:
mon,domedowcarrier_idx(valor indexado decarrier)org_idx(valor indexado deorg)kmdepartduration
Observação: O argumento truncate=False do método show() impede que os dados sejam truncados na saída.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Importe a classe que montará os preditores.
- Crie um objeto de montagem que permitirá que você mescle as colunas de preditores em uma única coluna.
- Use o montador para gerar uma nova coluna consolidada.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)