Menggunakan Dask untuk melatih model linear
Dask dapat digunakan untuk melatih model Machine Learning pada himpunan data yang terlalu besar untuk dimuat seluruhnya ke memori, serta memungkinkan Anda mendistribusikan pemuatan data, prapemrosesan, dan pelatihan ke banyak thread, proses, bahkan ke beberapa komputer.
Anda ditugaskan untuk melatih sebuah model Machine Learning yang akan memprediksi popularitas lagu dalam himpunan data Spotify yang Anda gunakan pada bab-bab sebelumnya. Data telah dimuat sebagai Dask DataFrame malas. Variabel masukan tersedia sebagai dask_X dan berisi beberapa kolom numerik, seperti tempo lagu dan danceability. Nilai target tersedia sebagai dask_y dan merupakan skor popularitas setiap lagu.
Latihan ini adalah bagian dari kursus
Pemrograman Paralel dengan Dask di Python
Petunjuk latihan
- Impor kelas
SGDRegressordarisklearn.linear_modeldan kelasIncrementaldaridask_ml.wrappers. - Buat model regresi linear
SGDRegressor. - Gunakan kelas
Incrementaluntuk membungkus model agar dapat dilatih dengan himpunan data Dask, dan atur parameterscoringke'neg_mean_squared_error'. - Latih model yang telah dibungkus dengan hanya satu kali perulangan melalui data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____
# Create a SGDRegressor model
model = ____
# Wrap the model so that it works with Dask
dask_model = ____
# Fit the wrapped model
dask_model.____