1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giảm Chiều Dữ Liệu với Python

Connected

Bài tập

Chia tập huấn luyện - kiểm tra

Trong chương này, bạn sẽ tiếp tục làm việc với bộ dữ liệu ANSUR. Trước khi xây dựng mô hình, bạn cần quyết định biến mục tiêu muốn dự đoán. Ở đây, bạn sẽ dự đoán giới tính.

Bạn cần tách cột chứa biến này ra khỏi bộ dữ liệu rồi chia dữ liệu thành tập huấn luyện và tập kiểm tra. Tập huấn luyện dùng để huấn luyện mô hình, còn tập kiểm tra dùng để đánh giá hiệu năng trên dữ liệu chưa từng thấy.

ansur_df đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Import hàm train_test_split từ sklearn.model_selection.
  • Gán cột 'Gender' cho y.
  • Loại bỏ cột 'Gender' khỏi DataFrame và gán kết quả cho X.
  • Đặt kích thước tập kiểm tra là 30% để chia 70% huấn luyện và 30% kiểm tra.