Usare Dask per addestrare un modello lineare

Dask può essere usato per addestrare modelli di Machine Learning su insiemi di dati troppo grandi per entrare in memoria, e ti permette di distribuire il caricamento dei dati, il preprocessing e l’addestramento su più thread, processi e persino su più computer.

Il tuo compito è addestrare un modello di Machine Learning che predica la popolarità dei brani nel dataset di Spotify che hai usato nei capitoli precedenti. I dati sono già stati caricati come Dask DataFrame lazy. Le variabili di input sono disponibili come dask_X e contengono alcune colonne numeriche, come il tempo (tempo) e la danceability del brano. I valori target sono disponibili come dask_y e rappresentano il punteggio di popolarità di ciascun brano.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza corso

Istruzioni dell'esercizio

Importa la classe SGDRegressor da sklearn.linear_model e la classe Incremental da dask_ml.wrappers.
Crea un modello di regressione lineare SGDRegressor.
Usa la classe Incremental per incapsulare il modello così da poterlo addestrare con un dataset Dask e imposta il parametro scoring a 'neg_mean_squared_error'.
Esegui il fit del modello incapsulato usando un solo passaggio sui dati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____

Modifica ed esegui il codice