Modelo de duração de voo: Modelo de tubulação

Agora você está pronto para reunir esses estágios em um pipeline.

Você construirá o pipeline e, em seguida, treinará o pipeline com os dados de treinamento. Isso aplicará cada um dos estágios individuais do pipeline aos dados de treinamento. Nenhum dos estágios será exposto aos dados de teste: não haverá vazamento!

Depois que todo o pipeline tiver sido treinado, ele será usado para fazer previsões sobre os dados de teste.

Os dados estão disponíveis em flights, que foi dividido aleatoriamente em flights_train e flights_test.

Este exercicio faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercicio

Importe a classe para criar um pipeline.
Crie um objeto de pipeline e especifique os estágios indexer, onehot, assembler e regression, nesta ordem.
Treine o pipeline com os dados de treinamento.
Faça previsões sobre os dados de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)

Editar e Executar Código