1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Tworzenie potoku

Czas na stworzenie Pipeline!

Pipeline to klasa z modułu pyspark.ml, która łączy wszystkie Estimators i Transformers, które już wcześniej przygotowałeś. Dzięki temu możesz wielokrotnie używać tego samego procesu modelowania – wystarczy opakować go w jeden prosty obiekt. Wygodne, prawda?

Instrukcje

100 XP
  • Zaimportuj Pipeline z pyspark.ml.
  • Wywołaj konstruktor Pipeline() z argumentem kluczowym stages, aby utworzyć Pipeline o nazwie flights_pipe.
    • stages powinno być listą zawierającą wszystkie etapy, przez które mają przejść dane w potoku. W tym przypadku jest to: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]