MulaiMulai sekarang secara gratis

Menggunakan Dask untuk melatih model linear

Dask dapat digunakan untuk melatih model Machine Learning pada himpunan data yang terlalu besar untuk dimuat seluruhnya ke memori, serta memungkinkan Anda mendistribusikan pemuatan data, prapemrosesan, dan pelatihan ke banyak thread, proses, bahkan ke beberapa komputer.

Anda ditugaskan untuk melatih sebuah model Machine Learning yang akan memprediksi popularitas lagu dalam himpunan data Spotify yang Anda gunakan pada bab-bab sebelumnya. Data telah dimuat sebagai Dask DataFrame malas. Variabel masukan tersedia sebagai dask_X dan berisi beberapa kolom numerik, seperti tempo lagu dan danceability. Nilai target tersedia sebagai dask_y dan merupakan skor popularitas setiap lagu.

Latihan ini adalah bagian dari kursus

Pemrograman Paralel dengan Dask di Python

Lihat Kursus

Petunjuk latihan

  • Impor kelas SGDRegressor dari sklearn.linear_model dan kelas Incremental dari dask_ml.wrappers.
  • Buat model regresi linear SGDRegressor.
  • Gunakan kelas Incremental untuk membungkus model agar dapat dilatih dengan himpunan data Dask, dan atur parameter scoring ke 'neg_mean_squared_error'.
  • Latih model yang telah dibungkus dengan hanya satu kali perulangan melalui data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the SGDRegressor and the Incremental wrapper
from ____ import ____
from ____ import ____

# Create a SGDRegressor model
model = ____

# Wrap the model so that it works with Dask
dask_model = ____

# Fit the wrapped model
dask_model.____
Edit dan Jalankan Kode