Dask gebruiken om een lineair model te trainen
Dask kun je gebruiken om Machine Learning-modellen te trainen op gegevenssets die te groot zijn om in het geheugen te passen. Het laat je bovendien het laden van data, de preprocessing en de training verdelen over meerdere threads, processen en zelfs over meerdere computers.
Jij gaat een Machine Learning-model trainen dat de populariteit van liedjes in de Spotify-gegevensset uit eerdere hoofdstukken voorspelt. De data is al geladen als luie Dask DataFrames. De invoervariabelen staan in dask_X en bevatten een paar numerieke kolommen, zoals het tempo en de dansbaarheid van het liedje. De doelwaarden staan in dask_y en zijn de populariteitsscore van elk liedje.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Importeer de klasse
SGDRegressoruitsklearn.linear_modelen de klasseIncrementaluitdask_ml.wrappers. - Maak een lineair regressiemodel met
SGDRegressor. - Gebruik de klasse
Incrementalom het model te verpakken zodat het met een Dask-gegevensset getraind kan worden, en zet de parameterscoringop'neg_mean_squared_error'. - Train het verpakte model met slechts één lus door de data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____
# Create a SGDRegressor model
model = ____
# Wrap the model so that it works with Dask
dask_model = ____
# Fit the wrapped model
dask_model.____