Significância da Diferença de Proporções

Ir para o trabalho de bicicleta ainda não é comum, mas Washington, DC, tem uma participação razoável. Ela aumentou mais de 1 ponto percentual nos últimos anos, mas será que esse aumento é estatisticamente significativo? Neste exercício, você vai calcular o erro padrão de uma proporção e, em seguida, a estatística Z de duas amostras para as proporções.

A fórmula do erro padrão (EP) de uma proporção é:

$$SE_P = \frac{1}{N}\sqrt{SE_n^2 - P^2SE_N^2}$$

A fórmula da estatística Z de duas amostras é:

$$Z = \frac{x_1 - x_2}{\sqrt{SE_{x_1}^2 + SE_{x_2}^2}}$$

O DataFrame dc já está carregado. Ele tem colunas (mostradas no console) com estimativas (terminando em "_est") e margens de erro (terminando em "_moe") para trabalhadores totais e para quem vai de bicicleta.

A função sqrt foi importada do módulo numpy.

Este exercício faz parte do curso

Analisando dados do Censo dos EUA em Python

Ver curso

Instruções do exercício

Calcule bike_share dividindo o número de ciclistas pelo total de trabalhadores
Calcule o EP da estimativa de ciclistas e do total de trabalhadores, dividindo o MOE por Z_CRIT
Calcule o EP das proporções: se_bike é o EP da subpopulação $SE_n$, bike_share é a proporção $P$, e se_total é o EP da população $SE_N$
Calcule $Z$: $x_1$ e $x_2$ são o bike_share em 2017 e 2011; $SE_{x_1}$ e $SE_{x_2}$ são se_p em 2017 e 2011

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set the critical Z score for 90% confidence
Z_CRIT = 1.645

# Calculate share of bike commuting
dc["bike_share"] = ____

# Calculate standard errors of the estimate from MOEs
dc["se_bike"] = ____
dc["se_total"] = ____
dc["se_p"] = sqrt(____**2 - ____**2 * ____**2)**0.5 / dc["total_est"]

# Calculate the two sample statistic between 2011 and 2017
Z = (dc[dc["year"] == 2017]["bike_share"] - ____) / \
    sqrt(____**2 + ____**2)
print(Z_CRIT < Z)

Editar e executar o código