1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Lập trình song song với Dask trong Python

Connected

Bài tập

Biến đổi dữ liệu huấn luyện theo kiểu lười (lazily)

Tiền xử lý các biến đầu vào là bước rất quan trọng trong Machine Learning và thường giúp cải thiện độ chính xác của mô hình. Ở vài bài trước, dữ liệu Spotify đã được tiền xử lý sẵn cho bạn, nhưng điều quan trọng là bạn biết cách tự làm.

Trong bài này, bạn sẽ dùng đối tượng StandardScaler() để biến đổi các cột của một mảng sao cho chúng có trung bình bằng 0 và độ lệch chuẩn bằng 1.

Dask DataFrame chứa các bài hát Spotify đã có sẵn trong môi trường của bạn dưới tên dask_df. Nó bao gồm cả điểm phổ biến (target) và các biến đầu vào mà bạn dùng để dự đoán các điểm này.

Hướng dẫn

100 XP
  • Import lớp StandardScaler() từ dask_ml.preprocessing.
  • Chọn cột 'popularity' từ DataFrame và gán vào biến y.
  • Tạo một đối tượng StandardScaler và fit nó với dữ liệu X.
  • Dùng scaler để biến đổi X.