Usar Dask para entrenar un modelo lineal
Dask se puede usar para entrenar modelos de Machine Learning en conjuntos de datos demasiado grandes para caber en memoria, y te permite distribuir la carga de datos, el preprocesamiento y el entrenamiento entre varios hilos, procesos e incluso en varios ordenadores.
Tu tarea es entrenar un modelo de Machine Learning que prediga la popularidad de las canciones del conjunto de datos de Spotify que usaste en capítulos anteriores. Los datos ya se han cargado como Dask DataFrames perezosos. Las variables de entrada están disponibles como dask_X e incluyen algunas columnas numéricas, como el tempo de la canción y su danceability. Los valores objetivo están disponibles como dask_y y corresponden a la puntuación de popularidad de cada canción.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Importa la clase
SGDRegressordesklearn.linear_modely la claseIncrementaldedask_ml.wrappers. - Crea un modelo de regresión lineal
SGDRegressor. - Usa la clase
Incrementalpara envolver el modelo y poder entrenarlo con un conjunto de datos de Dask, y establece el parámetroscoringa'neg_mean_squared_error'. - Ajusta el modelo envuelto realizando solo un ciclo sobre los datos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____
# Create a SGDRegressor model
model = ____
# Wrap the model so that it works with Dask
dask_model = ____
# Fit the wrapped model
dask_model.____