Modelo de duração do voo: Modelo de pipeline
Agora você tá pronto pra juntar essas etapas num pipeline.
Você vai montar o pipeline e depois treinar ele com os dados de treinamento. Isso vai aplicar cada uma das etapas individuais do pipeline aos dados de treinamento, uma por uma. Nenhuma das etapas vai ficar exposta aos dados de teste: não vai ter vazamento!
Depois que todo o pipeline estiver treinado, ele vai ser usado pra fazer previsões nos dados de teste.
Os dados estão disponíveis em flights
, que foi dividido aleatoriamente em flights_train
e flights_test
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa a classe pra criar um pipeline.
- Crie um objeto pipeline e especifique as etapas “
indexer
”, “onehot
”, “assembler
” e “regression
”, nessa ordem. - Treine o pipeline com os dados de treinamento.
- Faça previsões com base nos dados dos testes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)