Um teste de hipótese bootstrap de duas amostras para diferença de médias

Agora queremos testar a hipótese de que os Sapos A e B têm a mesma força média de impacto, mas não necessariamente a mesma distribuição, o que também é impossível com um teste de permutação.

Para fazer o teste bootstrap de duas amostras, deslocamos ambos os arrays para que tenham a mesma média, já que estamos simulando a hipótese de que suas médias são, de fato, iguais. Em seguida, extraímos amostras bootstrap dos arrays deslocados e calculamos a diferença entre as médias. Isso constitui uma réplica bootstrap, e geramos muitas delas. O valor de p é a fração de réplicas com uma diferença de médias maior ou igual ao que foi observado.

Os objetos forces_concat e empirical_diff_means já estão no seu ambiente.

Este exercício faz parte do curso

Pensamento Estatístico em Python (Parte 2)

Instruções do exercício

Calcule a média de todas as forças (de forces_concat) usando np.mean().
Gere conjuntos de dados deslocados para tanto force_a quanto force_b de modo que a média de cada um seja a média do array concatenado de forças de impacto.
Gere 10.000 réplicas bootstrap da média para cada um dos dois arrays deslocados.
Calcule as réplicas bootstrap da diferença de médias subtraindo as réplicas da força de impacto deslocada do Sapo B das do Sapo A.
Calcule e imprima o valor de p a partir das suas réplicas bootstrap.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Compute mean of all forces: mean_force
mean_force = ____

# Generate shifted arrays
force_a_shifted = force_a - np.mean(force_a) + mean_force
force_b_shifted = ____ 

# Compute 10,000 bootstrap replicates from shifted arrays
bs_replicates_a = draw_bs_reps(____, ____, ____)
bs_replicates_b = draw_bs_reps(____, ____, ____)

# Get replicates of difference of means: bs_replicates
bs_replicates = ____

# Compute and print p-value: p
p = ____ / ____
print('p-value =', p)

Editar e executar o código

Este exercício faz parte do curso

Pensamento Estatístico em Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Ao fazer inferência estatística, falamos a linguagem da probabilidade. Uma distribuição de probabilidade que descreve seus dados tem parâmetros. Assim, um objetivo central da inferência estatística é estimar os valores desses parâmetros, o que nos permite descrever os dados de forma concisa e inequívoca e tirar conclusões a partir deles. Neste capítulo, você vai aprender a encontrar os parâmetros ótimos, aqueles que melhor descrevem seus dados.

Exercise 1: Parâmetros ótimos Exercise 2: Com que frequência temos no-hitters?Exercise 3: Os dados seguem a nossa história?Exercise 4: Por que esse parâmetro é ótimo?Exercise 5: Regressão linear por mínimos quadrados Exercise 6: EDA de dados de alfabetização/fertilidade Exercise 7: Regressão linear Exercise 8: Como isso é ótimo?Exercise 9: A importância da EDA: quarteto de Anscombe Exercise 10: A importância da EDA Exercise 11: Regressão linear nos dados apropriados de Anscombe Exercise 12: Regressão linear em todos os dados de Anscombe

“Pull yourself up by your bootstraps” é um idiom clássico que significa realizar uma tarefa difícil por conta própria, sem ajuda alguma. Em inferência estatística, você quer saber o que aconteceria se pudesse repetir a aquisição dos seus dados um número infinito de vezes. Essa tarefa é impossível, mas será que podemos usar apenas os dados que realmente temos para chegar perto do mesmo resultado de uma infinidade de experimentos? A resposta é sim! A técnica para fazer isso é, apropriadamente, chamada de bootstrapping. Este capítulo vai apresentar a você essa ferramenta extraordinariamente poderosa.

Exercise 1: Gerando réplicas de bootstrap Exercise 2: Acertando a terminologia Exercise 3: Bootstrap na mão Exercise 4: Visualizando amostras bootstrap Exercise 5: Intervalos de confiança por bootstrap Exercise 6: Gerando muitos replicados bootstrap Exercise 7: Réplicas bootstrap da média e o SEM Exercise 8: Intervalos de confiança dos dados de precipitação Exercise 9: Réplicas bootstrap de outras estatísticas Exercise 10: Intervalo de confiança para a taxa de no-hitters Exercise 11: Bootstrap por pares Exercise 12: Uma função para fazer pairs bootstrap Exercise 13: Bootstrap em pares com dados de alfabetização/fertilidade Exercise 14: Plotando regressões bootstrap

Agora você sabe como definir e estimar parâmetros dado um modelo. Mas permanece a pergunta: quão razoável é observar seus dados se um modelo for verdadeiro? Essa questão é respondida por testes de hipóteses. Eles são a cereja do bolo da inferência. Depois de concluir este capítulo, você será capaz de construir e testar hipóteses com cuidado usando hacker statistics.

Exercise 1: Formulando e simulando uma hipótese Exercise 2: Gerando uma amostra por permutação Exercise 3: Visualizando amostragem por permutação Exercise 4: Estatísticas de teste e valores de p Exercise 5: Estatísticas de teste Exercise 6: O que é um p-valor?Exercise 7: Gerando réplicas de permutação Exercise 8: Olhe antes de saltar: EDA antes do teste de hipóteses Exercise 9: Teste de permutação com dados de sapos Exercise 10: Testes de hipótese com bootstrap Exercise 11: Um teste de hipótese bootstrap de uma amostra Exercise 12: Um teste de hipótese bootstrap de duas amostras para diferença de médias

Exercício atual

Como você viu no capítulo anterior, testes de hipóteses podem ser um pouco complexos. Você precisa definir a hipótese nula, descobrir como simulá-la e definir claramente o que significa ser “mais extremo” para calcular o valor de p. Como qualquer habilidade, a prática leva à perfeição, e este capítulo oferece uma boa dose de treino com testes de hipóteses.

Exercise 1: Teste A/B Exercise 2: A votação da Lei dos Direitos Civis em 1964 Exercise 3: O que é equivalente?Exercise 4: Um análogo de tempo no site Exercise 5: O que você deveria ter feito primeiro?Exercise 6: Teste de correlação Exercise 7: Simulando uma hipótese nula sobre correlação Exercise 8: Teste de hipótese para correlação de Pearson Exercise 9: Inseticidas neonicotinóides têm consequências inesperadas?Exercise 10: Teste de hipótese com bootstrap em contagens de esperma de abelhas

Todos os anos, há mais de 40 anos, Peter e Rosemary Grant vão à ilha Daphne Major, nas Galápagos, e coletam dados sobre os tentilhões de Darwin. Usando suas habilidades de inferência estatística, você vai passar este capítulo com os dados deles e observar em primeira mão, por meio dos dados, a evolução em ação. É uma maneira empolgante de encerrar o curso!

Exercise 1: Bicos de tentilhões e a necessidade de estatística Exercise 2: EDA das profundidades de bicos dos tentilhões de Darwin Exercise 3: ECDFs das profundidades de bico Exercise 4: Estimativas de parâmetros de profundidade do bico Exercise 5: Teste de hipótese: os bicos são mais profundos em 2012?Exercise 6: Variação nos formatos de bico Exercise 7: EDA do comprimento e da profundidade do bico Exercise 8: Regressões lineares Exercise 9: Exibindo os resultados da regressão linear Exercise 10: Razão entre comprimento e profundidade do bico Exercise 11: Quão diferente é a razão?Exercise 12: Cálculo da herdabilidade Exercise 13: EDA de herdabilidade Exercise 14: Correlação entre dados de filhotes e pais Exercise 15: Correlação de Pearson entre descendentes e pais Exercise 16: Medindo a herdabilidade Exercise 17: A profundidade do bico é herdável em G. scandens?Exercise 18: Considerações finais