ComeçarComece de graça

Crie o pipeline

Finalmente você está pronto para criar um Pipeline!

Pipeline é uma classe do módulo pyspark.ml que combina todos os Estimators e Transformers que você já criou. Isso permite que você reutilize o mesmo processo de modelagem várias vezes, envolvendo-o em um objeto simples. Legal, não é?

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Importe Pipeline de pyspark.ml.

  • Chame o construtor Pipeline() com o argumento de palavra-chave stages para criar um Pipeline chamado flights_pipe.

    • stages deve ser uma lista com todos os estágios pelos quais você deseja que os dados passem no pipeline. Aqui é só: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import Pipeline
from ____ import ____

# Make the pipeline
flights_pipe = Pipeline(stages=____)
Editar e executar o código