Calculando a estatística K-S

Escreva uma função para calcular a estatística de Kolmogorov–Smirnov a partir de dois conjuntos de dados, data1 e data2, em que data2 consiste em amostras da distribuição teórica com a qual você está comparando seus dados. Note que isso significa que estamos usando hacker stats para calcular a estatística K-S para um conjunto de dados e uma distribuição teórica, e não a estatística K-S para dois conjuntos de dados empíricos. Por conveniência, a função que você acabou de selecionar para calcular valores da ECDF formal é dcst.ecdf_formal().

Este exercício faz parte do curso

Estudos de caso em pensamento estatístico

Instruções do exercício

Calcule os valores dos cantos convexos da ECDF formal para data1 usando dcst.ecdf(). Armazene os resultados nas variáveis x e y.
Use dcst.ecdf_formal() para calcular os valores da CDF teórica, determinada a partir de data2, nos cantos convexos x. Armazene o resultado na variável cdf.
Calcule as distâncias entre os cantos côncavos da ECDF formal e a CDF teórica. Armazene o resultado como D_top.
Calcule a distância entre os cantos convexos da ECDF formal e a CDF teórica. Observe que você precisará subtrair 1/len(data1) de y para obter o valor de y no canto convexo. Armazene o resultado em D_bottom.
Retorne a estatística K-S como o máximo de todas as entradas em D_top e D_bottom. Você pode passar D_top e D_bottom juntos como uma tupla para np.max() para fazer isso.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def ks_stat(data1, data2):
    # Compute ECDF from data: x, y
    
    
    # Compute corresponding values of the target CDF
    cdf = ____

    # Compute distances between concave corners and CDF
    D_top = ____ - ____

    # Compute distance between convex corners and CDF
    D_bottom = ____ - ____ + ____/____

    return np.max((D_top, D_bottom))

Editar e executar o código

Este exercício faz parte do curso

Estudos de caso em pensamento estatístico

IntermediárioNível de habilidade

4.9+

Iniciar curso de graça

Para começar, você vai usar dois conjuntos de dados de pesquisadores do Caltech para revisitar os pontos-chave de Statistical Thinking I e II e se preparar para os estudos de caso a seguir!

Exercise 1: Atividade de zebrafish e melatonina Exercise 2: EDA: trace ECDFs do comprimento de períodos ativos Exercise 3: Interpretando ECDFs e a história Exercise 4: Intervalos de confiança por bootstrap Exercise 5: Estimativa de parâmetro: comprimento do período ativo Exercise 6: Testes de hipótese com permutação e bootstrap Exercise 7: Teste de permutação: tipo selvagem versus heterozigoto Exercise 8: Teste de hipótese por bootstrap Exercise 9: Regressões lineares e bootstrap de pares Exercise 10: Avaliando a taxa de crescimento Exercise 11: Plotando a curva de crescimento

Neste capítulo, você vai praticar suas habilidades de EDA, estimativa de parâmetros e testes de hipótese nos resultados do Campeonato Mundial de Natação FINA de 2015.

Exercise 1: Introdução aos dados de natação Exercise 2: EDA gráfica das eliminatórias dos 200 livre masculino Exercise 3: Tempo dos 200 m livre com intervalo de confiança Exercise 4: Os nadadores vão mais rápido nas finais?Exercise 5: EDA: finais versus semifinais Exercise 6: Estimativas de parâmetros da diferença entre finais e semifinais Exercise 7: Como fazer o teste de permutação Exercise 8: Gerando amostras por permutação Exercise 9: Teste de hipótese: Mulheres nadam da mesma forma nas semis e nas finais?Exercise 10: Como o desempenho dos nadadores cai em provas longas?Exercise 11: EDA: Plote todos os seus dados Exercise 12: Regressão linear do tempo médio por parcial Exercise 13: Teste de hipótese: eles estão desacelerando?

Alguns nadadores disseram que sentiram que era mais fácil nadar em uma direção do que em outra no Mundial de 2013. Alguns analistas levantaram a hipótese de que havia uma corrente giratória na piscina. Neste capítulo, você vai investigar essa alegação! Referências - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (e também <a href="https://swimswam.com/problem-rio-pool/" target="_blank">aqui)</a>, e <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introdução à controvérsia da corrente Exercise 2: Uma métrica de melhora Exercise 3: ECDF da melhora de raias baixas para altas Exercise 4: Estimativa da melhoria média Exercise 5: Como devemos testar a hipótese?Exercise 6: Teste de hipótese: a faixa (raia) afeta o desempenho?Exercise 7: O evento de 2015 teve esse problema?Exercise 8: O efeito zigue-zague Exercise 9: Quais parciais devemos considerar?Exercise 10: EDA: diferenças médias entre parciais ímpares e pares Exercise 11: Como o efeito da corrente depende da posição na raia?Exercise 12: Teste de hipótese: isso pode ter sido por acaso?Exercise 13: Recapitulação da análise de natação

Aqui, você vai usar suas habilidades de pensamento estatístico para estudar a frequência e as magnitudes dos terremotos. No caminho, vai aprender noções de sismologia estatística, incluindo a lei de Gutenberg-Richter. Este exercício expõe duas ideias-chave sobre ciência de dados: 1) como cientista de dados, você entra em todo tipo de análise específica de domínio, o que é muito empolgante. Você está sempre aprendendo. 2) Às vezes você se depara com dados limitados, como acontece em muitos desses estudos de terremotos. Ainda assim, é possível avançar bem!

Exercise 1: Introdução à sismologia estatística e ao experimento de Parkfield Exercise 2: Magnitudes dos terremotos de Parkfield Exercise 3: Calculando o valor de b Exercise 4: O valor b para Parkfield Exercise 5: Temporalidade dos grandes terremotos e a sequência de Parkfield Exercise 6: Estimativas de intervalo entre terremotos em Parkfield Exercise 7: Quando será o próximo grande terremoto em Parkfield?Exercise 8: Como são distribuídos os tempos entre terremotos em Parkfield?Exercise 9: Calculando o valor de uma ECDF formal Exercise 10: Calculando a estatística K-S

Exercício atual

Exercise 11: Gerando réplicas K-S Exercise 12: O teste K-S para exponencialidade

Claro que terremotos têm um grande impacto na sociedade e, recentemente, vêm sendo relacionados a atividades humanas. Neste capítulo final, você vai investigar o efeito que o aumento da injeção de água salina residuária devido à extração de petróleo em Oklahoma teve sobre a sismicidade da região.

Exercise 1: Variações na frequência de terremotos e na sismicidade Exercise 2: EDA: Plotando terremotos ao longo do tempo Exercise 3: Estimativas dos tempos médios entre terremotos Exercise 4: Teste de hipótese: a frequência de terremotos mudou?Exercise 5: Como apresentar sua análise Exercise 6: Magnitudes de terremotos em Oklahoma Exercise 7: EDA: Comparando magnitudes antes e depois de 2010 Exercise 8: Quantificação dos valores b Exercise 9: Como devemos fazer um teste de hipótese sobre diferenças no valor b?Exercise 10: Teste de hipótese: os valores de b são diferentes?Exercise 11: O que você pode concluir desta análise?Exercise 12: Comentários finais