1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Phân phối train/test

Trong một buổi phỏng vấn Machine Learning, gần như chắc chắn bạn sẽ làm việc với dữ liệu huấn luyện (training) và dữ liệu kiểm tra (test). Như đã thảo luận, hiệu suất mô hình có thể kém nếu phân phối của tập huấn luyện và tập kiểm tra khác nhau.

Trong bài tập này, bạn sẽ dùng các hàm từ sklearn.model_selection cùng với seaborn và matplotlib.pyplot để tách loan_data thành tập huấn luyện và tập kiểm tra, đồng thời trực quan hóa phân phối của chúng để phát hiện bất kỳ sai lệch nào.

Lưu ý: seaborn và matplotlib.pyplot đã được nhập sẵn trong không gian làm việc của bạn với bí danh lần lượt là sns và plt.

Pipeline hiện đã bao gồm Train/Test split:

Machine learning pipeline

Hướng dẫn

100 XP
  • Lấy tập con của loan_data chỉ gồm các đặc trưng Credit Score và Annual Income, và biến mục tiêu Loan Status theo đúng thứ tự đó.
  • Tạo phép chia 80/20 cho loan_data và gán vào loan_data_subset.
  • Tạo pairplot cho trainingSet và testSet (theo thứ tự đó), đặt đối số hue là biến mục tiêu Loan Status.