LoslegenKostenlos loslegen

Die Pipeline erstellen

Du bist endlich bereit, eine Pipeline zu erstellen!

Pipeline ist eine Klasse im Modul pyspark.ml, die alle Estimators und Transformers zusammenfasst, die du bereits erstellt hast. Auf diese Weise kannst du denselben Modellerstellungsprozess immer wieder verwenden, indem du ihn in ein einfaches Objekt verpackst. Toll, oder?

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere Pipeline von pyspark.ml.

  • Rufe den Pipeline()-Konstruktor mit dem Schlüsselwortargument stages auf, um eine Pipeline namens flights_pipe zu erstellen.

    • stages muss eine Liste mit allen Phasen sein, die deine Daten in der Pipeline durchlaufen sollen. Hier ist es einfach: [dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler]

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import Pipeline
from ____ import ____

# Make the pipeline
flights_pipe = Pipeline(stages=____)
Code bearbeiten und ausführen