Usando Dask para treinar um modelo linear

Dask pode ser usado para treinar modelos de Machine Learning em conjuntos de dados grandes demais para caber na memória e permite distribuir o carregamento de dados, o pré-processamento e o treinamento entre várias threads, processos e até mesmo em vários computadores.

Sua tarefa é treinar um modelo de Machine Learning que vai prever a popularidade das músicas no conjunto de dados do Spotify que você usou em capítulos anteriores. Os dados já foram carregados como Dask DataFrames preguiçosos (lazy). As variáveis de entrada estão disponíveis como dask_X e contêm algumas colunas numéricas, como o tempo (tempo/ritmo) da música e a danceability. Os valores-alvo estão disponíveis como dask_y e correspondem à pontuação de popularidade de cada música.

Este exercício faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercício

Importe a classe SGDRegressor de sklearn.linear_model e a classe Incremental de dask_ml.wrappers.
Crie um modelo de regressão linear SGDRegressor.
Use a classe Incremental para encapsular o modelo, permitindo treiná-lo com um conjunto de dados do Dask, e defina o parâmetro scoring como 'neg_mean_squared_error'.
Ajuste o modelo encapsulado usando apenas um único loop pelos dados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____

Editar e executar o código