Modelo de duração do voo: Etapas do pipeline
Você vai criar as etapas para o pipeline do modelo de duração dos voos. Você vai usar isso no próximo exercício pra montar um pipeline e criar um modelo de regressão.
As classes StringIndexer
, OneHotEncoder
, VectorAssembler
e LinearRegression
já foram importadas.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Crie um indexador para transformar a coluna “org” numa coluna indexada chamada “org_idx”.
- Crie um codificador one-hot para converter as colunas “orgidx” e “dow” em colunas de variáveis fictícias chamadas “orgdummy” e “dow_dummy”.
- Crie um assembler que combine a coluna “km” com as duas colunas de variáveis fictícias. A coluna de saída deve ser chamada de “features”.
- Crie um objeto de regressão linear para prever a duração do voo.
Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)