1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Dự đoán CTR với Machine Learning trong Python

Connected

Bài tập

Hồi quy logistic cho ung thư vú

Ở bài trước, bạn đã có đánh giá sơ bộ về dữ liệu. Trong bài này, bạn sẽ định nghĩa tập huấn luyện và kiểm tra cho một mô hình hồi quy logistic trên bộ dữ liệu ung thư vú. Đây là bước đầu tiên quan trọng trước khi chạy mọi mô hình Machine Learning.

Bộ dữ liệu ung thư vú là một mẫu từ sklearn với nhiều đặc trưng của bệnh nhân và biến mục tiêu cho biết bệnh nhân có ung thư vú hay không. Dữ liệu có dạng dictionary, trong đó dữ liệu chính nằm trong mảng data, và các giá trị mục tiêu nằm trong mảng target. Do đó, cancer_data.data sẽ là các đặc trưng và cancer_data.target là các nhãn mục tiêu. Dữ liệu mẫu đã được nạp vào biến cancer_data, cùng với pandas là pd. LogisticRegression có sẵn qua sklearn.linear_model.

Hướng dẫn

100 XP
  • Định nghĩa X và y lần lượt từ data và target.
  • Tạo X_train và y_train từ 300 mẫu đầu tiên của X và y, lần lượt, dùng X[:300] cho X_train.
  • Tạo X_test và y_test từ phần còn lại của X và y (không bao gồm 300 mẫu đầu), dùng X[300:] cho X_test.