ComeçarComece de graça

Montagem das colunas

A última etapa da preparação dos dados é juntar todas as colunas de preditores numa só coluna.

Uma versão atualizada dos dados “ flights ”, que leva em conta todas as mudanças dos exercícios anteriores, tem as seguintes colunas de preditores:

  • mon, dom e dow
  • carrier_idx (valor indexado de carrier)
  • org_idx (valor indexado de org)
  • km
  • depart
  • duration

Observação: O argumento " truncate=False " para o método " show() " evita que os dados sejam cortados na saída.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Importa a classe que vai juntar os preditores.
  • Crie um objeto assembler que vai te ajudar a juntar as colunas dos preditores em uma só coluna.
  • Use o assembler pra criar uma nova coluna consolidada.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the necessary class
from pyspark.ml.feature import ____

# Create an assembler object
assembler = ____(inputCols=[
    ____
], outputCol='features')

# Consolidate predictor columns
flights_assembled = assembler.____(____)

# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)
Editar e executar o código