Montagem de colunas

O estágio final da preparação dos dados é consolidar todas as colunas de previsão em uma única coluna.

Uma versão atualizada dos dados flights, que leva em conta todas as alterações dos exercícios anteriores, tem as seguintes colunas de previsão:

mon, dom e dow
carrier_idx (valor indexado de carrier)
org_idx (valor indexado de org)
km
depart
duration

Observação: O argumento truncate=False do método show() impede que os dados sejam truncados na saída.

Este exercicio faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercicio

Importe a classe que montará os preditores.
Crie um objeto de montagem que permitirá que você mescle as colunas de preditores em uma única coluna.
Use o montador para gerar uma nova coluna consolidada.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)

Editar e Executar Código