1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình Tuyến tính Tổng quát (GLM) trong Python

Connected

Bài tập

Tính VIF

Như bạn đã học trong video, một phép chẩn đoán phổ biến cho hiện tượng đa cộng tuyến là hệ số phóng đại phương sai (variance inflation factor, VIF), được tính cho từng biến giải thích.

Nhắc lại từ video: một ngưỡng kinh nghiệm là VIF ở mức 2.5, nghĩa là nếu VIF lớn hơn 2.5 thì bạn nên xem xét khả năng có ảnh hưởng của đa cộng tuyến lên mô hình đã khớp.

model đã được khớp trước đó và bộ dữ liệu crab đã được nạp sẵn trong không gian làm việc.

Hướng dẫn

100 XP
  • Từ statsmodels, import variance_inflation_factor.
  • Từ dữ liệu crab, chọn weight, width và color và lưu thành X. Thêm cột Intercept gồm toàn số 1 vào X.
  • Dùng hàm DataFrame() của pandas để tạo một dataframe vif rỗng và thêm tên các cột của X vào cột Variables.
  • Với mỗi biến, tính VIF bằng hàm variance_inflation_factor() và lưu vào dataframe vif với tên cột VIF.