1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Phát hiện ngoại lệ (outlier)

Một khía cạnh rất quan trọng của tiền xử lý dữ liệu đúng cách là phát hiện ngoại lệ (outlier). Trong phỏng vấn Machine Learning, một câu hỏi thường gặp là cách xác định vị trí và xử lý các giá trị ngoại lệ. Một cách đơn giản để phát hiện outlier là trực quan hóa chúng bằng đồ thị.

Sau khi tìm và bù (impute) dữ liệu khuyết, việc tìm outlier và quyết định cách xử lý chúng là một bước tiền xử lý cần thiết khác.

Có nhiều thư viện giúp bạn trực quan hóa outlier, nhưng trong bài tập này, bạn sẽ dùng seaborn để vẽ boxplot đơn biến và đa biến cho các cột đã chọn của loan_data.

Tất cả các gói liên quan đã được nhập sẵn cho bạn.

Bạn đang ở bước nào trong pipeline?

Machine learning pipeline

Hướng dẫn 1/3

undefined XP
  • 1
    • Tạo boxplot đơn biến dùng thuộc tính Annual Income từ loan_data.
    • Tạo boxplot đa biến điều kiện theo Loan Status dùng thuộc tính Annual Income từ loan_data.
  • 2
    • Tạo boxplot đơn biến dùng thuộc tính Monthly Debt từ loan_data.
    • Tạo boxplot đa biến điều kiện theo Loan Status dùng thuộc tính Monthly Debt từ loan_data.
  • 3
    • Tạo boxplot đơn biến dùng thuộc tính Years of Credit History từ loan_data.
    • Tạo boxplot đa biến điều kiện theo Loan Status dùng thuộc tính Years of Credit History từ loan_data.