ComeçarComece de graça

Regra empírica

Muitas estatísticas usadas em análise de dados (incluindo a média amostral e a proporção amostral) têm propriedades úteis para entender melhor o(s) parâmetro(s) populacional(is) de interesse.

Uma dessas propriedades é que, se a variabilidade da proporção amostral (chamada de erro padrão, ou \(SE\)) for conhecida, então aproximadamente 95% dos valores de \(\hat{p}\) (de amostras diferentes) estarão dentro de \(2SE\) da verdadeira proporção populacional.

Para verificar se isso vale na situação em questão, vamos voltar às pesquisas geradas a partir de muitas amostras da mesma população.

O conjunto de dados all_polls contém 1000 amostras de tamanho 30 de uma população com probabilidade de votar no Candidato X igual a 0.6.

Observe que você usará a função do R sd(), que calcula a variabilidade de qualquer conjunto de números. Em estatística, quando sd() é aplicada a uma variável (por exemplo, preço de casas), chamamos de desvio padrão. Quando sd() é aplicada a uma estatística (por exemplo, um conjunto de proporções amostrais), chamamos de erro padrão.

Este exercício faz parte do curso

Fundamentos de Inferência em R

Ver curso

Instruções do exercício

  • Execute o código para gerar props, a proporção de pessoas que planejam votar sim em cada pesquisa. Isso se baseia em ex1_props dos exercícios anteriores.
  • Adicione uma coluna, is_in_conf_int, que seja TRUE quando a proporção amostral de votos "sim" estiver a menos de 2 erros padrão da verdadeira proporção populacional de votos "sim". Isto é, a diferença abs()oluta entre prop_yes e true_prop_yes é menor que o dobro do sd() de prop_yes.
  • Calcule a proporção das estatísticas amostrais dentro do intervalo de confiança, prop_in_conf_int, tomando a mean() de is_in_conf_int.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Proportion of yes votes by poll
props <- all_polls %>% 
  group_by(poll) %>% 
  summarize(prop_yes = mean(vote == "yes"))

# The true population proportion of yes votes
true_prop_yes <- 0.6

# Proportion of polls within 2SE
props %>%
  # Add column: is prop_yes in 2SE of 0.6
  mutate(is_in_conf_int = ___(___ - ___) < ___ * ___(___)) %>%
  # Calculate  proportion in conf int
  summarize(prop_in_conf_int = ___(___))
Editar e executar o código