ComeçarComece de graça

Montagem de colunas

O estágio final da preparação dos dados é consolidar todas as colunas de previsão em uma única coluna.

Uma versão atualizada dos dados flights, que leva em conta todas as alterações dos exercícios anteriores, tem as seguintes colunas de previsão:

  • mon, dom e dow
  • carrier_idx (valor indexado de carrier)
  • org_idx (valor indexado de org)
  • km
  • depart
  • duration

Observação: O argumento truncate=False do método show() impede que os dados sejam truncados na saída.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Importe a classe que montará os preditores.
  • Crie um objeto de montagem que permitirá que você mescle as colunas de preditores em uma única coluna.
  • Use o montador para gerar uma nova coluna consolidada.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Editar e executar o código