ComeçarComece gratuitamente

Modelo de duração de voo: Modelo de tubulação

Agora você está pronto para reunir esses estágios em um pipeline.

Você construirá o pipeline e, em seguida, treinará o pipeline com os dados de treinamento. Isso aplicará cada um dos estágios individuais do pipeline aos dados de treinamento. Nenhum dos estágios será exposto aos dados de teste: não haverá vazamento!

Depois que todo o pipeline tiver sido treinado, ele será usado para fazer previsões sobre os dados de teste.

Os dados estão disponíveis em flights, que foi dividido aleatoriamente em flights_train e flights_test.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Importe a classe para criar um pipeline.
  • Crie um objeto de pipeline e especifique os estágios indexer, onehot, assembler e regression, nesta ordem.
  • Treine o pipeline com os dados de treinamento.
  • Faça previsões sobre os dados de teste.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Editar e executar código