1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Mã hóa One-Hot

Vấn đề với label encoding là nó ngầm giả định có quan hệ thứ bậc giữa các hạng mục. Vì vậy, hãy đổi phương pháp mã hóa cho các đặc trưng "RoofStyle" và "CentralAir" sang one-hot encoding. Nhắc lại, train và test DataFrame từ cuộc thi House Prices trên Kaggle đã có sẵn trong không gian làm việc của bạn.

Hãy nhớ rằng nếu bạn xử lý đặc trưng nhị phân (đặc trưng phân loại chỉ có hai hạng mục), thì chỉ nên áp dụng label encoder.

Mục tiêu của bạn là xác định xem trong các đặc trưng đã nêu, đặc trưng nào không phải nhị phân, và chỉ áp dụng one-hot encoding cho đặc trưng đó.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Xác định phân phối của các đặc trưng "RoofStyle" và "CentralAir" bằng phương thức value_counts() của pandas.