1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Thống kê với Python

Connected

Bài tập

Tìm outlier bằng IQR

Outlier có thể ảnh hưởng lớn đến các thống kê như mean, cũng như các thống kê dựa trên mean như variance và standard deviation. Interquartile range (IQR) là một cách đo độ phân tán khác, ít bị ảnh hưởng bởi outlier hơn. IQR cũng thường được dùng để tìm outlier. Nếu một giá trị nhỏ hơn \(\text{Q1} - 1.5 \times \text{IQR}\) hoặc lớn hơn \(\text{Q3} + 1.5 \times \text{IQR}\), giá trị đó được coi là outlier. Thực tế, đây chính là cách tính độ dài whisker trong box plot của matplotlib.

Diagram of a box plot showing median, quartiles, and outliers

Trong bài tập này, bạn sẽ tính IQR và dùng nó để tìm một số outlier. Đã nạp pandas là pd và numpy là np, và food_consumption đã sẵn có.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Tính tổng co2_emission theo từng quốc gia bằng cách group theo quốc gia và lấy tổng co2_emission. Lưu DataFrame kết quả là emissions_by_country.