Usando Dask para treinar um modelo linear
Dask pode ser usado para treinar modelos de Machine Learning em conjuntos de dados grandes demais para caber na memória e permite distribuir o carregamento de dados, o pré-processamento e o treinamento entre várias threads, processos e até mesmo em vários computadores.
Sua tarefa é treinar um modelo de Machine Learning que vai prever a popularidade das músicas no conjunto de dados do Spotify que você usou em capítulos anteriores. Os dados já foram carregados como Dask DataFrames preguiçosos (lazy). As variáveis de entrada estão disponíveis como dask_X e contêm algumas colunas numéricas, como o tempo (tempo/ritmo) da música e a danceability. Os valores-alvo estão disponíveis como dask_y e correspondem à pontuação de popularidade de cada música.
Este exercício faz parte do curso
Programação Paralela com Dask em Python
Instruções do exercício
- Importe a classe
SGDRegressordesklearn.linear_modele a classeIncrementaldedask_ml.wrappers. - Crie um modelo de regressão linear
SGDRegressor. - Use a classe
Incrementalpara encapsular o modelo, permitindo treiná-lo com um conjunto de dados do Dask, e defina o parâmetroscoringcomo'neg_mean_squared_error'. - Ajuste o modelo encapsulado usando apenas um único loop pelos dados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____
# Create a SGDRegressor model
model = ____
# Wrap the model so that it works with Dask
dask_model = ____
# Fit the wrapped model
dask_model.____