1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Điền giá trị thiếu

Bạn phát hiện các cột "price" và "building_id" có giá trị bị thiếu trong bộ dữ liệu Rental Listing Inquiries. Vì vậy, trước khi đưa dữ liệu vào các mô hình, bạn cần điền (impute) các giá trị này.

Thuộc tính số "price" sẽ được mã hóa bằng giá trị trung bình của các mức giá không bị thiếu.

Việc điền thuộc tính phân loại "building_id" bằng hạng mục xuất hiện nhiều nhất là một ý tưởng tệ, vì như vậy sẽ có nghĩa là mọi căn hộ thiếu "building_id" đều nằm trong tòa nhà phổ biến nhất. Cách tốt hơn là điền bằng một hạng mục mới.

DataFrame rental_listings chứa dữ liệu cuộc thi đã được nạp sẵn cho bạn.

Hướng dẫn 1/2

undefined XP
  • 1
    • Tạo một đối tượng SimpleImputer với chiến lược "mean".
    • Điền các giá trị price bị thiếu bằng giá trị trung bình.
  • 2
    • Tạo một imputer với chiến lược "constant". Dùng "MISSING" làm fill_value.
    • Điền các giá trị building bị thiếu bằng một giá trị cố định.