1. Learn
  2. /
  3. Courses
  4. /
  5. Giám sát Machine Learning bằng Python

Connected

Exercise

Kiểm tra chất lượng dữ liệu

Như bạn đã học trong video trước, giá trị thiếu có thể làm mất thông tin quan trọng và dẫn đến diễn giải sai. Tương tự, sự xuất hiện của giá trị chưa từng thấy cũng có thể ảnh hưởng đến độ tự tin của mô hình.

Trong bài tập này, mục tiêu của bạn là kiểm tra xem tập dữ liệu đặt phòng khách sạn có chứa giá trị thiếu hay không và xác định bất kỳ giá trị chưa từng thấy nào. Tập dữ liệu tham chiếu và phân tích đã được nạp sẵn, cùng với thư viện nannyml.

Một lưu ý nhanh: nếu bạn không nhớ kiểu của các cột, bạn có thể khám phá dữ liệu dễ dàng bằng phương thức .head().

Instructions 1/2

undefined XP
  • 1
    • Khởi tạo bộ tính giá trị thiếu, truyền các cột đã chọn vào column_names và đặt chunk_period theo tháng.
  • 2
    • Thêm hai tên cột phân loại country và hotel, khởi tạo bộ tính giá trị chưa từng thấy và truyền categorical_columns vào column names.