ComeçarComece de graça

Modelo de duração de voo: Estágios do pipeline

Você criará os estágios para o pipeline do modelo de duração dos voos. Você os usará no próximo exercício para construir um pipeline e criar um modelo de regressão.

As classes StringIndexer, OneHotEncoder, VectorAssembler e LinearRegression já foram importadas.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Crie um indexador para converter a coluna "org" em uma coluna indexada chamada "org_idx".
  • Crie um codificador de um único disparo para converter as colunas "orgidx" e "dow" em colunas de variáveis fictícias chamadas "orgdummy" e "dow_dummy".
  • Crie um montador que combinará a coluna "km" com as duas colunas de variáveis fictícias. A coluna de saída deve ser chamada de "recursos".
  • Crie um objeto de regressão linear para prever a duração do voo.

Você pode achar útil revisitar os slides das lições no painel Slides, ao lado do IPython Shell.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Editar e executar o código