1. Learn
  2. /
  3. Courses
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Exercise

Kỹ thuật xử lý đa cộng tuyến - xây dựng đặc trưng

Đa cộng tuyến là một vấn đề phổ biến có thể ảnh hưởng đến hiệu năng trong bất kỳ bối cảnh Machine Learning nào. Biết cách bàn về chi tiết nhỏ này có thể giúp phần giải thích mô hình của bạn từ ổn lên xuất sắc và thật sự tạo khác biệt khi phỏng vấn.

Trong bài tập này, bạn sẽ thực hành tạo một mô hình cơ sở bằng Linear Regression trên bộ dữ liệu diabetes và khám phá một số chỉ số đầu ra. Sau đó, bạn sẽ luyện tập các kỹ thuật để trực quan hóa tương quan giữa các biến độc lập, rồi cuối cùng thực hiện feature engineering trên 2 biến có tương quan cao.

Với hai bước đầu tiên, hãy dùng X_train, X_test, y_train và y_test đã được nhập sẵn vào không gian làm việc của bạn.

Ngoài ra, mọi gói liên quan đã được nhập sẵn cho bạn: pandas dưới tên pd, train_test_split từ sklearn.model_selection, LinearRegression từ sklearn.linear_model, mean_squared_error và r2_score từ sklearn.metrics, matplotlib.pyplot dưới tên plt và seaborn dưới tên sns.

Instructions 1/4

undefined XP
  • 1
    • Khởi tạo, fit và dự đoán bằng Linear Regression.
    • In các hệ số mô hình, MSE và r-squared.
  • 2
    • Tạo ma trận tương quan và vẽ heatmap.
    • In ma trận để khám phá mối quan hệ giữa các biến độc lập.
  • 3
    • Tạo một đặc trưng mới bằng cách kết hợp s1 và s2 từ diabetes, sau đó loại bỏ chúng.
    • Chia dữ liệu thành tập huấn luyện và kiểm tra với test size 30% và in tên các cột.
  • 4
    • Khởi tạo, fit và dự đoán bằng Linear Regression.
    • In các hệ số mô hình, MSE và r-squared.