1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Phân tích Dự đoán với Python

Connected

Bài tập

Phân chia dữ liệu

Để đánh giá mô hình một cách đúng đắn, bạn có thể chia dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test). Tập huấn luyện chứa dữ liệu dùng để xây dựng mô hình, còn tập kiểm tra dùng để đánh giá mô hình. Việc chia này được thực hiện ngẫu nhiên, nhưng khi tỷ lệ mục tiêu (target incidence) thấp, có thể cần phân tầng (stratify), tức là đảm bảo tập huấn luyện và tập kiểm tra có cùng tỷ lệ mục tiêu.

Trong bài tập này, bạn sẽ phân chia dữ liệu với phân tầng và kiểm tra rằng tập huấn luyện và tập kiểm tra có cùng tỷ lệ mục tiêu. Phương thức train_test_split đã được nhập, và các DataFrame X và y đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Phân tầng các DataFrame này bằng phương thức train_test_split. Đảm bảo tập huấn luyện và tập kiểm tra có kích thước bằng nhau và có cùng tỷ lệ mục tiêu.
  • Tính tỷ lệ mục tiêu của tập huấn luyện. Đây là số lượng mục tiêu trong tập huấn luyện chia cho số lượng quan sát trong tập huấn luyện.
  • Tính tỷ lệ mục tiêu của tập kiểm tra.