Usar Dask para entrenar un modelo lineal

Dask se puede usar para entrenar modelos de Machine Learning en conjuntos de datos demasiado grandes para caber en memoria, y te permite distribuir la carga de datos, el preprocesamiento y el entrenamiento entre varios hilos, procesos e incluso en varios ordenadores.

Tu tarea es entrenar un modelo de Machine Learning que prediga la popularidad de las canciones del conjunto de datos de Spotify que usaste en capítulos anteriores. Los datos ya se han cargado como Dask DataFrames perezosos. Las variables de entrada están disponibles como dask_X e incluyen algunas columnas numéricas, como el tempo de la canción y su danceability. Los valores objetivo están disponibles como dask_y y corresponden a la puntuación de popularidad de cada canción.

Este ejercicio forma parte del curso

Programación paralela con Dask en Python

Ver curso

Instrucciones del ejercicio

Importa la clase SGDRegressor de sklearn.linear_model y la clase Incremental de dask_ml.wrappers.
Crea un modelo de regresión lineal SGDRegressor.
Usa la clase Incremental para envolver el modelo y poder entrenarlo con un conjunto de datos de Dask, y establece el parámetro scoring a 'neg_mean_squared_error'.
Ajusta el modelo envuelto realizando solo un ciclo sobre los datos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____

Editar y ejecutar código