Modelo de duração de voo: Modelo de tubulação
Agora você está pronto para reunir esses estágios em um pipeline.
Você construirá o pipeline e, em seguida, treinará o pipeline com os dados de treinamento. Isso aplicará cada um dos estágios individuais do pipeline aos dados de treinamento. Nenhum dos estágios será exposto aos dados de teste: não haverá vazamento!
Depois que todo o pipeline tiver sido treinado, ele será usado para fazer previsões sobre os dados de teste.
Os dados estão disponíveis em flights
, que foi dividido aleatoriamente em flights_train
e flights_test
.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Importe a classe para criar um pipeline.
- Crie um objeto de pipeline e especifique os estágios
indexer
,onehot
,assembler
eregression
, nesta ordem. - Treine o pipeline com os dados de treinamento.
- Faça previsões sobre os dados de teste.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)