Mit Dask ein lineares Modell trainieren

Dask kann verwendet werden, um Machine-Learning-Modelle auf Datensätzen zu trainieren, die zu groß sind, um in den Arbeitsspeicher zu passen. Außerdem kannst du das Laden der Daten, die Vorverarbeitung und das Training über mehrere Threads, Prozesse und sogar über mehrere Rechner verteilen.

Deine Aufgabe ist es, ein Machine-Learning-Modell zu trainieren, das die Beliebtheit von Songs im Spotify-Datensatz vorhersagt, den du in den vorherigen Kapiteln verwendet hast. Die Daten wurden bereits als träge Dask DataFrames geladen. Die Eingabevariablen stehen als dask_X bereit und enthalten einige numerische Spalten, zum Beispiel das Tempo und die Danceability eines Songs. Die Zielwerte stehen als dask_y bereit und sind der Beliebtheitswert jedes Songs.

Diese Übung ist Teil des Kurses

Parallele Programmierung mit Dask in Python

Kurs anzeigen

Anleitung zur Übung

Importiere die Klasse SGDRegressor aus sklearn.linear_model und die Klasse Incremental aus dask_ml.wrappers.
Erstelle ein lineares Regressionsmodell mit SGDRegressor.
Wickle das Modell mit der Klasse Incremental, damit es mit einem Dask-Datensatz trainiert werden kann, und setze den Parameter scoring auf 'neg_mean_squared_error'.
Trainiere das umhüllte Modell mit nur einer Schleife über die Daten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____

Code bearbeiten und ausführen