Hypothesetoets: gaan ze langzamer?

We toetsen nu de nulhypothese dat de split time van een zwemmer helemaal niet correleert met de afstand die hij of zij op dat moment heeft afgelegd. We gebruiken de Pearson-correlatiecoëfficiënt (berekend met dcst.pearson_r()) als toetsingsgrootheid.

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

Oefeninstructies

Bereken de geobserveerde Pearson-correlatie en sla deze op als rho.
Initialiseer met np.empty() een array met 10.000 permutatiereplicaties van de Pearson-correlatie, met de naam perm_reps_rho.
Schrijf een for-lus om:
- De array met splitnummers te husselen met np.random.permutation(), noem deze scrambled_split_number.
- De Pearson-correlatiecoëfficiënt te berekenen tussen de gehusselde splitnummer-array en de gemiddelde split times, en sla deze op in perm_reps_rho.
Bereken de p-waarde en toon die op het scherm. Neem "minstens zo extreem als" hier te betekenen dat de Pearson-correlatie minstens zo groot is als geobserveerd.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Observed correlation
rho = ____

# Initialize permutation reps
perm_reps_rho = ____

# Make permutation reps
for i in range(10000):
    # Scramble the split number array
    scrambled_split_number = ____
    
    # Compute the Pearson correlation coefficient
    ____[i] = ____
    
# Compute and print p-value
p_val = ____(____ >= ____) / ____
print('p =', p_val)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Casestudies in statistisch denken

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Om te beginnen gebruik je twee gegevenssets van Caltech-onderzoekers om de kernpunten van Statistical Thinking I en II op te frissen en je klaar te stomen voor de volgende casestudies!

Exercise 1: Activiteit van zebravissen en melatonine Exercise 2: EDA: Plot ECDF's van actieve bout-lengte Exercise 3: ECDF's en het verhaal interpreteren Exercise 4: Bootstrap-betrouwbaarheidsintervallen Exercise 5: Parameterinschatting: lengte van actieve bout Exercise 6: Permutatie- en bootstrap-hypothesetoetsen Exercise 7: Permutatietoets: wildtype versus heterozygoot Exercise 8: Bootstrap-hypothesetoets Exercise 9: Lineaire regressies en pairs-bootstrap Exercise 10: De groeisnelheid bepalen Exercise 11: De groeicurve plotten

In dit hoofdstuk oefen je je EDA-, parameterinschatting- en hypothesetoetsingsvaardigheden op de resultaten van de FINA Wereldkampioenschappen Zwemmen 2015.

Exercise 1: Introductie tot zwemdata Exercise 2: Grafische EDA van de series 200 m vrije slag mannen Exercise 3: 200 m vrije slag met betrouwbaarheidsinterval Exercise 4: Zwemmen sporters sneller in de finale?Exercise 5: EDA: finales versus halve finales Exercise 6: Parameterinschattingen van het verschil tussen finales en halve finales Exercise 7: Hoe voer je de permutatietoets uit Exercise 8: Permutatiesteekproeven genereren Exercise 9: Hypothesetoets: Zwemmen vrouwen hetzelfde in halve finales en finales?Exercise 10: Hoe neemt de prestatie van zwemmers af bij lange nummers?Exercise 11: EDA: Plot al je data Exercise 12: Lineaire regressie van gemiddelde splittijd Exercise 13: Hypothesetoets: gaan ze langzamer?

Huidige oefening

Sommige zwemmers zeiden dat het in de Wereldkampioenschappen 2013 makkelijker voelde om in de ene richting te zwemmen dan in de andere. Sommige analisten stelden dat er een wervelende stroming in het bad was. In dit hoofdstuk onderzoek je die claim! Referenties - <a href="https://qz.com/761280/researchers-believe-certain-lanes-in-the-olympic-pool-may-have-given-some-swimmers-an-advantage/" target="_blank">Quartz Media</a>, <a href="https://www.washingtonpost.com/news/wonk/wp/2016/09/01/these-charts-clearly-show-how-some-olympic-swimmers-may-have-gotten-an-unfair-advantage/?utm_term=.dba907006ba1" target="_blank">Washington Post</a>, <a href="https://swimswam.com/rio-olympic-test-event-showed-same-pool-bias-2-0/" target="_blank">SwimSwam</a> (en ook <a href="https://swimswam.com/problem-rio-pool/" target="_blank">hier)</a>, en <a href="https://www.ncbi.nlm.nih.gov/pubmed/25003776" target="_blank">Cornett, et al</a>.

Exercise 1: Introductie van de stromingscontroverse Exercise 2: Een maatstaf voor verbetering Exercise 3: ECDF van verbetering van lage naar hoge banen Exercise 4: Schatting van gemiddelde verbetering Exercise 5: Hoe testen we de hypothese?Exercise 6: Hypothesetoets: Heeft baantoewijzing invloed op de prestatie?Exercise 7: Had het evenement van 2015 dit probleem ook?Exercise 8: Het zigzageffect Exercise 9: Welke splits moeten we meenemen?Exercise 10: EDA: gemiddelde verschillen tussen oneven en even splits Exercise 11: Hoe hangt het stroomeffect samen met de baanpositie?Exercise 12: Hypothesetoets: kan dit toeval zijn?Exercise 13: Samenvatting van de zwemanalyses

Hier gebruik je je statistische denkkracht om de frequentie en magnitudes van aardbevingen te bestuderen. Onderweg leer je wat basisprincipes van statistische seismologie, waaronder de Gutenberg-Richterwet. Deze oefening belicht twee kernideeën over data science: 1) Als data scientist duik je in allerlei domeinspecifieke analyses, wat erg leuk is. Je blijft voortdurend leren. 2) Je hebt soms te maken met beperkte data, zoals bij veel van deze aardbevingstudies. Je kunt dan nog steeds goede vooruitgang boeken!

Exercise 1: Introductie tot statistische seismologie en het Parkfield-experiment Exercise 2: Parkfield-aardbevingsmagnitudes Exercise 3: De b-waarde berekenen Exercise 4: De b-waarde voor Parkfield Exercise 5: Timing van grote aardbevingen en de Parkfield-sequentie Exercise 6: Schattingen van tussenliggende aardbevingstijden voor Parkfield Exercise 7: Wanneer is de volgende grote beving in Parkfield?Exercise 8: Hoe zijn de tussenliggende tijden tussen Parkfield-aardbevingen verdeeld?Exercise 9: De waarde van een formele ECDF berekenen Exercise 10: De K-S-statistiek berekenen Exercise 11: K-S-replicaten trekken Exercise 12: De K-S-toets op Exponentialiteit

Aardbevingen hebben natuurlijk een grote maatschappelijke impact en hangen recent samen met menselijke activiteit. In dit laatste hoofdstuk onderzoek je het effect dat de toegenomen injectie van zout afvalwater door oliewinning in Oklahoma heeft gehad op de seismiciteit van de regio.

Exercise 1: Variaties in aardbevingsfrequentie en seismiciteit Exercise 2: EDA: Aardbevingen over de tijd plotten Exercise 3: Schattingen van de gemiddelde tijd tussen aardbevingen Exercise 4: Hypothesetoets: veranderde de aardbevingsfrequentie?Exercise 5: Hoe presenteer je je analyse Exercise 6: Aardbevingssterktes in Oklahoma Exercise 7: EDA: Magnitudes vergelijken voor en na 2010 Exercise 8: Kwantisering van de b-waarden Exercise 9: Hoe testen we een hypothese over verschillen in de b-waarde?Exercise 10: Hypothesetoets: zijn de b-waarden verschillend?Exercise 11: Wat kun je uit deze analyse concluderen?Exercise 12: Afsluitende opmerkingen