1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Biến đổi log và lũy thừa

Trong bài tập trước, bạn đã so sánh phân phối của tập huấn luyện và tập kiểm tra của loan_data. Điều này đặc biệt quan trọng trong phỏng vấn Machine Learning vì phân phối quan sát được sẽ quyết định việc bạn có cần dùng các kỹ thuật điều chỉnh phân phối của các đặc trưng về gần phân phối chuẩn hay không, để không vi phạm các giả định về tính chuẩn.

Trong bài này, bạn sẽ sử dụng phép biến đổi log và lũy thừa từ mô-đun scipy.stats trên đặc trưng Years of Credit History của loan_data, cùng với hàm distplot() từ seaborn, hàm này vẽ cả phân phối và ước lượng mật độ kernel (kernel density estimation).

Tất cả các gói liên quan đã được nhập sẵn cho bạn.

Đây là vị trí của bạn trong pipeline:

Machine learning pipeline

Hướng dẫn 1/3

undefined XP
  • 1
    • Trích chọn loan_data cho 'Years of Credit History' và vẽ phân phối cùng ước lượng mật độ kernel (kde) bằng distplot().
  • 2
    • Áp dụng biến đổi log bằng phép biến đổi Box-Cox cho cr_yrs và vẽ phân phối cùng kde của nó.
  • 3
    • Biến đổi 'Years of Credit History' bằng tham số căn bậc hai (square-root) của Box-Cox và vẽ phân phối cùng kde.