1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Vytvoření pipeline

Teď už jsi připraven/a vytvořit Pipeline!

Pipeline je třída z modulu pyspark.ml, která spojuje všechny Estimators a Transformers, které jsi zatím vytvořil/a. Díky tomu můžeš celý proces modelování znovu a znovu používat — stačí ho zabalit do jednoho jednoduchého objektu. Šikovné, že?

Pokyny

100 XP
  • Importuj Pipeline z pyspark.ml.
  • Zavolej konstruktor Pipeline() s pojmenovaným argumentem stages a vytvoř tak Pipeline s názvem flights_pipe.
    • stages by měl být seznam obsahující všechny kroky, kterými mají tvoje data v pipeline projít. V tomto případě jde o: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]