1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Kỹ thuật đặc trưng (Feature engineering)

Bạn được giao nhiệm vụ dự đoán liệu một nhóm hồ sơ vay mới có khả năng vỡ nợ hay không. Bạn có một bộ dữ liệu lịch sử và muốn huấn luyện một bộ phân loại trên đó. Bạn nhận thấy nhiều đặc trưng đang ở dạng chuỗi, điều này gây vấn đề cho các bộ phân loại. Vì vậy, bạn quyết định mã hóa các cột chuỗi thành dạng số bằng LabelEncoder(). Hàm này đã được nạp sẵn từ tiểu mô-đun preprocessing của sklearn. Bộ dữ liệu credit cũng đã được nạp sẵn, cùng với danh sách tất cả tên cột có kiểu dữ liệu là chuỗi, được lưu trong non_numeric_columns.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Kiểm tra 3 dòng đầu của dữ liệu bằng .head().