1. 학습
  2. /
  3. 강의
  4. /
  5. Lập trình song song với Dask trong Python

Connected

연습 문제

Dùng Dask để huấn luyện mô hình tuyến tính

Dask có thể được dùng để huấn luyện các mô hình Machine Learning trên những tập dữ liệu quá lớn để chứa vừa trong bộ nhớ, và cho phép bạn phân tán việc tải dữ liệu, tiền xử lý và huấn luyện qua nhiều luồng, nhiều tiến trình, thậm chí trên nhiều máy tính.

Nhiệm vụ của bạn là huấn luyện một mô hình Machine Learning để dự đoán độ phổ biến của các bài hát trong bộ dữ liệu Spotify mà bạn đã dùng ở các chương trước. Dữ liệu đã được nạp dưới dạng Dask DataFrame “lười” (lazy). Các biến đầu vào có trong dask_X và gồm một vài cột số, như tempo và danceability của bài hát. Giá trị mục tiêu nằm trong dask_y và là điểm độ phổ biến của mỗi bài hát.

지침

100 XP
  • Import lớp SGDRegressor từ sklearn.linear_model và lớp Incremental từ dask_ml.wrappers.
  • Tạo một mô hình hồi quy tuyến tính SGDRegressor.
  • Dùng lớp Incremental để bọc mô hình nhằm có thể huấn luyện với dataset Dask, và đặt tham số scoring là 'neg_mean_squared_error'.
  • Fit mô hình đã bọc chỉ với một vòng lặp qua dữ liệu.