ComeçarComece gratuitamente

Montagem de colunas

O estágio final da preparação dos dados é consolidar todas as colunas de previsão em uma única coluna.

Uma versão atualizada dos dados do site flights, que leva em conta todas as alterações dos exercícios anteriores, tem as seguintes colunas de previsão:

  • mon, dom e dow
  • carrier_idx (valor indexado de carrier)
  • org_idx (valor indexado de org)
  • km
  • depart
  • duration

Observação: O argumento truncate=False do método show() impede que os dados sejam truncados na saída.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Importe a classe que montará os preditores.
  • Crie um objeto de montagem que permitirá que você mescle as colunas de preditores em uma única coluna.
  • Use o montador para gerar uma nova coluna consolidada.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Editar e executar código