Usare Dask per addestrare un modello lineare
Dask può essere usato per addestrare modelli di Machine Learning su insiemi di dati troppo grandi per entrare in memoria, e ti permette di distribuire il caricamento dei dati, il preprocessing e l’addestramento su più thread, processi e persino su più computer.
Il tuo compito è addestrare un modello di Machine Learning che predica la popolarità dei brani nel dataset di Spotify che hai usato nei capitoli precedenti. I dati sono già stati caricati come Dask DataFrame lazy. Le variabili di input sono disponibili come dask_X e contengono alcune colonne numeriche, come il tempo (tempo) e la danceability del brano. I valori target sono disponibili come dask_y e rappresentano il punteggio di popolarità di ciascun brano.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Importa la classe
SGDRegressordasklearn.linear_modele la classeIncrementaldadask_ml.wrappers. - Crea un modello di regressione lineare
SGDRegressor. - Usa la classe
Incrementalper incapsulare il modello così da poterlo addestrare con un dataset Dask e imposta il parametroscoringa'neg_mean_squared_error'. - Esegui il fit del modello incapsulato usando un solo passaggio sui dati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____
# Create a SGDRegressor model
model = ____
# Wrap the model so that it works with Dask
dask_model = ____
# Fit the wrapped model
dask_model.____