Hypothesetoets: kan dit toeval zijn?

De EDA en lineaire regressie-analyse zijn vrij overtuigend. Toch rond je de analyse van het zigzageffect af door de hypothese te toetsen dat baanindeling niets te maken heeft met het gemiddelde fractionele verschil tussen even en oneven banen, met een permutatietoets. Je gebruikt de Pearson-correlatiecoëfficiënt, die je kunt berekenen met dcst.pearson_r() als teststatistiek. De variabelen lanes en f_13 staan al in je namespace.

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

Oefeninstructies

Bereken de geobserveerde Pearson-correlatiecoëfficiënt en sla die op als rho.
Initialiseer een array om de 10.000 permutatiereplicaties van rho in op te slaan met np.empty(). Noem de array perm_reps_rho.
Schrijf een for-lus om de permutatiereplicaties te trekken.
- Herschik de array lanes met np.random.permutation().
- Bereken de Pearson-correlatiecoëfficiënt tussen de herschikte lanes-array en f_13. Sla het resultaat op in perm_reps_rho.
Bereken en print de p-waarde. Neem "ten minste zo extreem als" hier als: de Pearson-correlatiecoëfficiënt is groter dan of gelijk aan wat is waargenomen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute observed correlation: rho
rho = ____

# Initialize permutation reps: perm_reps_rho
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the lanes array: scrambled_lanes
    scrambled_lanes = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / 10000
print('p =', p_val)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Om te beginnen gebruik je twee gegevenssets van Caltech-onderzoekers om de kernpunten van Statistical Thinking I en II op te frissen en je klaar te stomen voor de volgende casestudies!

Exercise 1: Activiteit van zebravissen en melatonine Exercise 2: EDA: Plot ECDF's van actieve bout-lengte Exercise 3: ECDF's en het verhaal interpreteren Exercise 4: Bootstrap-betrouwbaarheidsintervallen Exercise 5: Parameterinschatting: lengte van actieve bout Exercise 6: Permutatie- en bootstrap-hypothesetoetsen Exercise 7: Permutatietoets: wildtype versus heterozygoot Exercise 8: Bootstrap-hypothesetoets Exercise 9: Lineaire regressies en pairs-bootstrap Exercise 10: De groeisnelheid bepalen Exercise 11: De groeicurve plotten

In dit hoofdstuk oefen je je EDA-, parameterinschatting- en hypothesetoetsingsvaardigheden op de resultaten van de FINA Wereldkampioenschappen Zwemmen 2015.

Exercise 1: Introductie tot zwemdata Exercise 2: Grafische EDA van de series 200 m vrije slag mannen Exercise 3: 200 m vrije slag met betrouwbaarheidsinterval Exercise 4: Zwemmen sporters sneller in de finale?Exercise 5: EDA: finales versus halve finales Exercise 6: Parameterinschattingen van het verschil tussen finales en halve finales Exercise 7: Hoe voer je de permutatietoets uit Exercise 8: Permutatiesteekproeven genereren Exercise 9: Hypothesetoets: Zwemmen vrouwen hetzelfde in halve finales en finales?Exercise 10: Hoe neemt de prestatie van zwemmers af bij lange nummers?Exercise 11: EDA: Plot al je data Exercise 12: Lineaire regressie van gemiddelde splittijd Exercise 13: Hypothesetoets: gaan ze langzamer?

Sommige zwemmers zeiden dat het in de Wereldkampioenschappen 2013 makkelijker voelde om in de ene richting te zwemmen dan in de andere. Sommige analisten stelden dat er een wervelende stroming in het bad was. In dit hoofdstuk onderzoek je die claim! Referenties - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (en ook <a href="https://swimswam.com/problem-rio-pool/" target="_blank">hier)</a>, en <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introductie van de stromingscontroverse Exercise 2: Een maatstaf voor verbetering Exercise 3: ECDF van verbetering van lage naar hoge banen Exercise 4: Schatting van gemiddelde verbetering Exercise 5: Hoe testen we de hypothese?Exercise 6: Hypothesetoets: Heeft baantoewijzing invloed op de prestatie?Exercise 7: Had het evenement van 2015 dit probleem ook?Exercise 8: Het zigzageffect Exercise 9: Welke splits moeten we meenemen?Exercise 10: EDA: gemiddelde verschillen tussen oneven en even splits Exercise 11: Hoe hangt het stroomeffect samen met de baanpositie?Exercise 12: Hypothesetoets: kan dit toeval zijn?

Huidige oefening

Exercise 13: Samenvatting van de zwemanalyses

Hier gebruik je je statistische denkkracht om de frequentie en magnitudes van aardbevingen te bestuderen. Onderweg leer je wat basisprincipes van statistische seismologie, waaronder de Gutenberg-Richterwet. Deze oefening belicht twee kernideeën over data science: 1) Als data scientist duik je in allerlei domeinspecifieke analyses, wat erg leuk is. Je blijft voortdurend leren. 2) Je hebt soms te maken met beperkte data, zoals bij veel van deze aardbevingstudies. Je kunt dan nog steeds goede vooruitgang boeken!

Exercise 1: Introductie tot statistische seismologie en het Parkfield-experiment Exercise 2: Parkfield-aardbevingsmagnitudes Exercise 3: De b-waarde berekenen Exercise 4: De b-waarde voor Parkfield Exercise 5: Timing van grote aardbevingen en de Parkfield-sequentie Exercise 6: Schattingen van tussenliggende aardbevingstijden voor Parkfield Exercise 7: Wanneer is de volgende grote beving in Parkfield?Exercise 8: Hoe zijn de tussenliggende tijden tussen Parkfield-aardbevingen verdeeld?Exercise 9: De waarde van een formele ECDF berekenen Exercise 10: De K-S-statistiek berekenen Exercise 11: K-S-replicaten trekken Exercise 12: De K-S-toets op Exponentialiteit

Aardbevingen hebben natuurlijk een grote maatschappelijke impact en hangen recent samen met menselijke activiteit. In dit laatste hoofdstuk onderzoek je het effect dat de toegenomen injectie van zout afvalwater door oliewinning in Oklahoma heeft gehad op de seismiciteit van de regio.

Exercise 1: Variaties in aardbevingsfrequentie en seismiciteit Exercise 2: EDA: Aardbevingen over de tijd plotten Exercise 3: Schattingen van de gemiddelde tijd tussen aardbevingen Exercise 4: Hypothesetoets: veranderde de aardbevingsfrequentie?Exercise 5: Hoe presenteer je je analyse Exercise 6: Aardbevingssterktes in Oklahoma Exercise 7: EDA: Magnitudes vergelijken voor en na 2010 Exercise 8: Kwantisering van de b-waarden Exercise 9: Hoe testen we een hypothese over verschillen in de b-waarde?Exercise 10: Hypothesetoets: zijn de b-waarden verschillend?Exercise 11: Wat kun je uit deze analyse concluderen?Exercise 12: Afsluitende opmerkingen