Com que frequência temos no-hitters?

O número de jogos disputados entre cada no-hitter na era moderna (1901–2015) da Major League Baseball está armazenado no array nohitter_times.

Se você assumir que os no-hitters seguem um processo de Poisson, então o tempo entre no-hitters é distribuído exponencialmente. Como você viu, a distribuição Exponencial tem um único parâmetro, que vamos chamar de \(\tau\), o tempo típico de intervalo. O valor do parâmetro \(\tau\) que faz a distribuição exponencial corresponder melhor aos dados é o tempo médio de intervalo (onde o tempo está em unidades de número de jogos) entre no-hitters.

Calcule o valor desse parâmetro a partir dos dados. Em seguida, use np.random.exponential() para “repetir” a história da Major League Baseball, extraindo tempos entre no-hitters de uma distribuição exponencial com o \(\tau\) que você encontrou, e faça o histograma como uma aproximação da PDF.

NumPy, pandas, matplotlib.pyplot e seaborn já foram importados para você como np, pd, plt e sns, respectivamente.

Este exercício faz parte do curso

Pensamento Estatístico em Python (Parte 2)

Instruções do exercício

Defina a semente do gerador de números aleatórios com 42.
Calcule o tempo médio (em número de jogos) entre no-hitters.
Extraia 100.000 amostras de uma distribuição Exponencial com o parâmetro que você calculou a partir da média dos tempos entre no-hitters.
Plote a PDF teórica usando plt.hist(). Lembre-se de usar os argumentos nomeados bins=50, normed=True e histtype='step'. Não se esqueça de rotular seus eixos.
Mostre o seu gráfico.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Seed random number generator
____

# Compute mean no-hitter time: tau
tau = ____

# Draw out of an exponential distribution with parameter tau: inter_nohitter_time
inter_nohitter_time = ____(____, 100000)

# Plot the PDF and label axes
_ = ____(inter_nohitter_time,
             ____, ____, ____)
_ = plt.xlabel('Games between no-hitters')
_ = plt.ylabel('PDF')

# Show the plot
plt.show()

Editar e executar o código

Este exercício faz parte do curso

Pensamento Estatístico em Python (Parte 2)

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Ao fazer inferência estatística, falamos a linguagem da probabilidade. Uma distribuição de probabilidade que descreve seus dados tem parâmetros. Assim, um objetivo central da inferência estatística é estimar os valores desses parâmetros, o que nos permite descrever os dados de forma concisa e inequívoca e tirar conclusões a partir deles. Neste capítulo, você vai aprender a encontrar os parâmetros ótimos, aqueles que melhor descrevem seus dados.

Exercise 1: Parâmetros ótimos Exercise 2: Com que frequência temos no-hitters?

Exercício atual

Exercise 3: Os dados seguem a nossa história?Exercise 4: Por que esse parâmetro é ótimo?Exercise 5: Regressão linear por mínimos quadrados Exercise 6: EDA de dados de alfabetização/fertilidade Exercise 7: Regressão linear Exercise 8: Como isso é ótimo?Exercise 9: A importância da EDA: quarteto de Anscombe Exercise 10: A importância da EDA Exercise 11: Regressão linear nos dados apropriados de Anscombe Exercise 12: Regressão linear em todos os dados de Anscombe

“Pull yourself up by your bootstraps” é um idiom clássico que significa realizar uma tarefa difícil por conta própria, sem ajuda alguma. Em inferência estatística, você quer saber o que aconteceria se pudesse repetir a aquisição dos seus dados um número infinito de vezes. Essa tarefa é impossível, mas será que podemos usar apenas os dados que realmente temos para chegar perto do mesmo resultado de uma infinidade de experimentos? A resposta é sim! A técnica para fazer isso é, apropriadamente, chamada de bootstrapping. Este capítulo vai apresentar a você essa ferramenta extraordinariamente poderosa.

Exercise 1: Gerando réplicas de bootstrap Exercise 2: Acertando a terminologia Exercise 3: Bootstrap na mão Exercise 4: Visualizando amostras bootstrap Exercise 5: Intervalos de confiança por bootstrap Exercise 6: Gerando muitos replicados bootstrap Exercise 7: Réplicas bootstrap da média e o SEM Exercise 8: Intervalos de confiança dos dados de precipitação Exercise 9: Réplicas bootstrap de outras estatísticas Exercise 10: Intervalo de confiança para a taxa de no-hitters Exercise 11: Bootstrap por pares Exercise 12: Uma função para fazer pairs bootstrap Exercise 13: Bootstrap em pares com dados de alfabetização/fertilidade Exercise 14: Plotando regressões bootstrap

Agora você sabe como definir e estimar parâmetros dado um modelo. Mas permanece a pergunta: quão razoável é observar seus dados se um modelo for verdadeiro? Essa questão é respondida por testes de hipóteses. Eles são a cereja do bolo da inferência. Depois de concluir este capítulo, você será capaz de construir e testar hipóteses com cuidado usando hacker statistics.

Exercise 1: Formulando e simulando uma hipótese Exercise 2: Gerando uma amostra por permutação Exercise 3: Visualizando amostragem por permutação Exercise 4: Estatísticas de teste e valores de p Exercise 5: Estatísticas de teste Exercise 6: O que é um p-valor?Exercise 7: Gerando réplicas de permutação Exercise 8: Olhe antes de saltar: EDA antes do teste de hipóteses Exercise 9: Teste de permutação com dados de sapos Exercise 10: Testes de hipótese com bootstrap Exercise 11: Um teste de hipótese bootstrap de uma amostra Exercise 12: Um teste de hipótese bootstrap de duas amostras para diferença de médias

Como você viu no capítulo anterior, testes de hipóteses podem ser um pouco complexos. Você precisa definir a hipótese nula, descobrir como simulá-la e definir claramente o que significa ser “mais extremo” para calcular o valor de p. Como qualquer habilidade, a prática leva à perfeição, e este capítulo oferece uma boa dose de treino com testes de hipóteses.

Exercise 1: Teste A/B Exercise 2: A votação da Lei dos Direitos Civis em 1964 Exercise 3: O que é equivalente?Exercise 4: Um análogo de tempo no site Exercise 5: O que você deveria ter feito primeiro?Exercise 6: Teste de correlação Exercise 7: Simulando uma hipótese nula sobre correlação Exercise 8: Teste de hipótese para correlação de Pearson Exercise 9: Inseticidas neonicotinóides têm consequências inesperadas?Exercise 10: Teste de hipótese com bootstrap em contagens de esperma de abelhas

Todos os anos, há mais de 40 anos, Peter e Rosemary Grant vão à ilha Daphne Major, nas Galápagos, e coletam dados sobre os tentilhões de Darwin. Usando suas habilidades de inferência estatística, você vai passar este capítulo com os dados deles e observar em primeira mão, por meio dos dados, a evolução em ação. É uma maneira empolgante de encerrar o curso!

Exercise 1: Bicos de tentilhões e a necessidade de estatística Exercise 2: EDA das profundidades de bicos dos tentilhões de Darwin Exercise 3: ECDFs das profundidades de bico Exercise 4: Estimativas de parâmetros de profundidade do bico Exercise 5: Teste de hipótese: os bicos são mais profundos em 2012?Exercise 6: Variação nos formatos de bico Exercise 7: EDA do comprimento e da profundidade do bico Exercise 8: Regressões lineares Exercise 9: Exibindo os resultados da regressão linear Exercise 10: Razão entre comprimento e profundidade do bico Exercise 11: Quão diferente é a razão?Exercise 12: Cálculo da herdabilidade Exercise 13: EDA de herdabilidade Exercise 14: Correlação entre dados de filhotes e pais Exercise 15: Correlação de Pearson entre descendentes e pais Exercise 16: Medindo a herdabilidade Exercise 17: A profundidade do bico é herdável em G. scandens?Exercise 18: Considerações finais