Hypothesetoets: gaan ze langzamer?
We toetsen nu de nulhypothese dat de split time van een zwemmer helemaal niet correleert met de afstand die hij of zij op dat moment heeft afgelegd. We gebruiken de Pearson-correlatiecoëfficiënt (berekend met dcst.pearson_r()) als toetsingsgrootheid.
Deze oefening maakt deel uit van de cursus
Casestudies in statistisch denken
Oefeninstructies
- Bereken de geobserveerde Pearson-correlatie en sla deze op als
rho. - Initialiseer met
np.empty()een array met 10.000 permutatiereplicaties van de Pearson-correlatie, met de naamperm_reps_rho. - Schrijf een
for-lus om:- De array met splitnummers te husselen met
np.random.permutation(), noem dezescrambled_split_number. - De Pearson-correlatiecoëfficiënt te berekenen tussen de gehusselde splitnummer-array en de gemiddelde split times, en sla deze op in
perm_reps_rho.
- De array met splitnummers te husselen met
- Bereken de p-waarde en toon die op het scherm. Neem "minstens zo extreem als" hier te betekenen dat de Pearson-correlatie minstens zo groot is als geobserveerd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Observed correlation
rho = ____
# Initialize permutation reps
perm_reps_rho = ____
# Make permutation reps
for i in range(10000):
# Scramble the split number array
scrambled_split_number = ____
# Compute the Pearson correlation coefficient
____[i] = ____
# Compute and print p-value
p_val = ____(____ >= ____) / ____
print('p =', p_val)