Crie o pipeline
Finalmente você está pronto para criar um Pipeline
!
Pipeline
é uma classe do módulo pyspark.ml
que combina todos os Estimators
e Transformers
que você já criou. Isso permite que você reutilize o mesmo processo de modelagem várias vezes, envolvendo-o em um objeto simples. Legal, não é?
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Importe
Pipeline
depyspark.ml
.Chame o construtor
Pipeline()
com o argumento de palavra-chavestages
para criar umPipeline
chamadoflights_pipe
.stages
deve ser uma lista com todos os estágios pelos quais você deseja que os dados passem no pipeline. Aqui é só:[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import Pipeline
from ____ import ____
# Make the pipeline
flights_pipe = Pipeline(stages=____)