Dask gebruiken om een lineair model te trainen

Dask kun je gebruiken om Machine Learning-modellen te trainen op gegevenssets die te groot zijn om in het geheugen te passen. Het laat je bovendien het laden van data, de preprocessing en de training verdelen over meerdere threads, processen en zelfs over meerdere computers.

Jij gaat een Machine Learning-model trainen dat de populariteit van liedjes in de Spotify-gegevensset uit eerdere hoofdstukken voorspelt. De data is al geladen als luie Dask DataFrames. De invoervariabelen staan in dask_X en bevatten een paar numerieke kolommen, zoals het tempo en de dansbaarheid van het liedje. De doelwaarden staan in dask_y en zijn de populariteitsscore van elk liedje.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Bekijk cursus

Oefeninstructies

Importeer de klasse SGDRegressor uit sklearn.linear_model en de klasse Incremental uit dask_ml.wrappers.
Maak een lineair regressiemodel met SGDRegressor.
Gebruik de klasse Incremental om het model te verpakken zodat het met een Dask-gegevensset getraind kan worden, en zet de parameter scoring op 'neg_mean_squared_error'.
Train het verpakte model met slechts één lus door de data.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____

Code bewerken en uitvoeren