Regra empírica
Muitas estatísticas usadas em análise de dados (incluindo a média amostral e a proporção amostral) têm propriedades úteis para entender melhor o(s) parâmetro(s) populacional(is) de interesse.
Uma dessas propriedades é que, se a variabilidade da proporção amostral (chamada de erro padrão, ou \(SE\)) for conhecida, então aproximadamente 95% dos valores de \(\hat{p}\) (de amostras diferentes) estarão dentro de \(2SE\) da verdadeira proporção populacional.
Para verificar se isso vale na situação em questão, vamos voltar às pesquisas geradas a partir de muitas amostras da mesma população.
O conjunto de dados all_polls contém 1000 amostras de tamanho 30 de uma população com probabilidade de votar no Candidato X igual a 0.6.
Observe que você usará a função do R sd(), que calcula a variabilidade de qualquer conjunto de números. Em estatística, quando sd() é aplicada a uma variável (por exemplo, preço de casas), chamamos de desvio padrão. Quando sd() é aplicada a uma estatística (por exemplo, um conjunto de proporções amostrais), chamamos de erro padrão.
Este exercício faz parte do curso
Fundamentos de Inferência em R
Instruções do exercício
- Execute o código para gerar
props, a proporção de pessoas que planejam votar sim em cada pesquisa. Isso se baseia emex1_propsdos exercícios anteriores. - Adicione uma coluna,
is_in_conf_int, que sejaTRUEquando a proporção amostral de votos "sim" estiver a menos de2erros padrão da verdadeira proporção populacional de votos "sim". Isto é, a diferençaabs()oluta entreprop_yesetrue_prop_yesé menor que o dobro dosd()deprop_yes. - Calcule a proporção das estatísticas amostrais dentro do intervalo de confiança,
prop_in_conf_int, tomando amean()deis_in_conf_int.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Proportion of yes votes by poll
props <- all_polls %>%
group_by(poll) %>%
summarize(prop_yes = mean(vote == "yes"))
# The true population proportion of yes votes
true_prop_yes <- 0.6
# Proportion of polls within 2SE
props %>%
# Add column: is prop_yes in 2SE of 0.6
mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
# Calculate proportion in conf int
summarize(prop_in_conf_int = ___(___))