ComeçarComece de graça

Modelo de duração do voo: Etapas do pipeline

Você vai criar as etapas para o pipeline do modelo de duração dos voos. Você vai usar isso no próximo exercício pra montar um pipeline e criar um modelo de regressão.

As classes StringIndexer, OneHotEncoder, VectorAssembler e LinearRegression já foram importadas.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Crie um indexador para transformar a coluna “org” numa coluna indexada chamada “org_idx”.
  • Crie um codificador one-hot para converter as colunas “orgidx” e “dow” em colunas de variáveis fictícias chamadas “orgdummy” e “dow_dummy”.
  • Crie um assembler que combine a coluna “km” com as duas colunas de variáveis fictícias. A coluna de saída deve ser chamada de “features”.
  • Crie um objeto de regressão linear para prever a duração do voo.

Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Editar e executar o código