1. Học hỏi
  2. /
  3. Dự An
  4. /
  5. Phân tích dữ liệu Điều tra Dân số Hoa Kỳ bằng Python

Connected

Bài tập

Mức ý nghĩa của chênh lệch tỷ lệ

Đi làm bằng xe đạp vẫn chưa phổ biến, nhưng Washington, DC có một tỷ lệ khá ổn. Tỷ lệ này đã tăng hơn 1 điểm phần trăm trong vài năm qua, nhưng liệu đây có phải là mức tăng có ý nghĩa thống kê không? Trong bài tập này, bạn sẽ tính sai số chuẩn của một tỷ lệ, sau đó tính Z-statistic hai mẫu cho các tỷ lệ.

Công thức sai số chuẩn (SE) của một tỷ lệ là:

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

Công thức Z-statistic hai mẫu là:

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

DataFrame dc đã được nạp. Nó có các cột (hiển thị trong bảng điều khiển) với ước lượng (kết thúc bằng "_est") và khoảng sai số (kết thúc bằng "_moe") cho tổng số người lao động và số người đi làm bằng xe đạp.

Hàm sqrt đã được nhập từ mô-đun numpy.

Hướng dẫn

100 XP
  • Tính bike_share bằng cách chia số người đi xe đạp cho tổng số người lao động
  • Tính SE của ước lượng số người đi xe đạp và tổng số người lao động bằng cách chia MOE cho Z_CRIT
  • Tính SE của các tỷ lệ: se_bike là SE của phân nhóm \(SE_n\), bike_share là tỷ lệ \(P\), và se_total là SE của tổng thể \(SE_N\)
  • Tính \(Z\): \(x_1\) và \(x_2\) là bike_share của năm 2017 và 2011; \(SE_{x_1}\) và \(SE_{x_2}\) là se_p của năm 2017 và 2011