ComeçarComece gratuitamente

Modelo de duração de voo: Estágios do pipeline

Você criará os estágios para o pipeline do modelo de duração dos voos. Você os usará no próximo exercício para construir um pipeline e criar um modelo de regressão.

As classes StringIndexer, OneHotEncoder, VectorAssembler e LinearRegression já foram importadas.

Este exercício faz parte do curso

Machine learning com PySpark

Ver Curso

Instruções de exercício

  • Crie um indexador para converter a coluna "org" em uma coluna indexada chamada "org_idx".
  • Crie um codificador de um único disparo para converter as colunas "orgidx" e "dow" em colunas de variáveis fictícias chamadas "orgdummy" e "dow_dummy".
  • Crie um montador que combinará a coluna "km" com as duas colunas de variáveis fictícias. A coluna de saída deve ser chamada de "recursos".
  • Crie um objeto de regressão linear para prever a duração do voo.

Você pode achar útil revisitar os slides das lições no painel Slides, ao lado do IPython Shell.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Editar e executar código