1. 学ぶ
  2. /
  3. プロジェクト
  4. /
  5. Pythonで学ぶ米国センサスデータ分析

Connected

演習

比率の差の有意性

自転車通勤はまだ一般的ではありませんが、Washington, DC では一定の比率があります。ここ数年で1ポイント超増加していますが、これは統計的に有意な増加でしょうか?この演習では、まず比率の標準誤差を計算し、その後、2標本のZ統計量を計算します。

比率の標準誤差(SE)の式は次のとおりです。

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

2標本Z統計量の式は次のとおりです。

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

DataFrame dc は読み込まれています。コンソールに表示されている列には、総就業者数と自転車通勤者の推定値("_est" で終わる列)と誤差範囲("_moe" で終わる列)が含まれています。

sqrt 関数は numpy モジュールからインポート済みです。

指示

100 XP
  • 自転車通勤者数を総就業者数で割って bike_share を計算します
  • MOE を Z_CRIT で割って、自転車通勤者と総就業者の推定値の SE を計算します
  • 比率の SE を計算します。se_bike は部分集団の標準誤差 $SE_n$、bike_share は比率 $P$、se_total は母集団の標準誤差 \(SE_N\) です
  • \(Z\) を計算します。\(x_1\) と \(x_2\) はそれぞれ 2017年と2011年の bike_share、\(SE_{x_1}\) と \(SE_{x_2}\) はそれぞれ 2017年と2011年の se_p です