Hypothesetoets: kan dit toeval zijn?
De EDA en lineaire regressie-analyse zijn vrij overtuigend. Toch rond je de analyse van het zigzageffect af door de hypothese te toetsen dat baanindeling niets te maken heeft met het gemiddelde fractionele verschil tussen even en oneven banen, met een permutatietoets. Je gebruikt de Pearson-correlatiecoëfficiënt, die je kunt berekenen met dcst.pearson_r() als teststatistiek. De variabelen lanes en f_13 staan al in je namespace.
Deze oefening maakt deel uit van de cursus
Casestudies in statistisch denken
Oefeninstructies
- Bereken de geobserveerde Pearson-correlatiecoëfficiënt en sla die op als
rho. - Initialiseer een array om de 10.000 permutatiereplicaties van
rhoin op te slaan metnp.empty(). Noem de arrayperm_reps_rho. - Schrijf een
for-lus om de permutatiereplicaties te trekken.- Herschik de array
lanesmetnp.random.permutation(). - Bereken de Pearson-correlatiecoëfficiënt tussen de herschikte
lanes-array enf_13. Sla het resultaat op inperm_reps_rho.
- Herschik de array
- Bereken en print de p-waarde. Neem "ten minste zo extreem als" hier als: de Pearson-correlatiecoëfficiënt is groter dan of gelijk aan wat is waargenomen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compute observed correlation: rho
rho = ____
# Initialize permutation reps: perm_reps_rho
perm_reps_rho = ____
# Make permutation reps
for i in range(10000):
# Scramble the lanes array: scrambled_lanes
scrambled_lanes = ____
# Compute the Pearson correlation coefficient
____[i] = ____
# Compute and print p-value
p_val = ____(____ >= ____) / 10000
print('p =', p_val)