Hypothesetoets op Pearson-correlatie
De geobserveerde correlatie tussen vrouwelijke analfabetisme en vruchtbaarheid kan ook toeval zijn; de vruchtbaarheid van een land kan in werkelijkheid volledig onafhankelijk zijn van het analfabetisme. Je gaat deze hypothese testen. Permuteer daarvoor de analfabetisme-waarden, maar laat de vruchtbaarheidswaarden vast. Dit simuleert de hypothese dat ze volledig onafhankelijk van elkaar zijn. Bereken voor elke permutatie de Pearson-correlatiecoëfficiënt en bepaal hoeveel van je permutatiereplicaties een Pearson-correlatiecoëfficiënt hebben die groter is dan de geobserveerde.
De functie pearson_r() die je in het eerste deel van deze cursus schreef om de Pearson-correlatiecoëfficiënt te berekenen, is al voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Statistical Thinking in Python (deel 2)
Oefeninstructies
- Bereken de geobserveerde Pearson-correlatie tussen
illiteracyenfertility. - Initialiseer een array om je permutatiereplicaties op te slaan.
- Schrijf een
for-lus om 10.000 replicaties te trekken:- Permuteer de
illiteracy-metingen metnp.random.permutation(). - Bereken de Pearson-correlatie tussen de permuteerde analfabetisme-array,
illiteracy_permuted, enfertility.
- Permuteer de
- Bereken en print de p-waarde op basis van de replicaties.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compute observed correlation: r_obs
r_obs = ____
# Initialize permutation replicates: perm_replicates
perm_replicates = np.empty(10000)
# Draw replicates
for ____ in ____:
# Permute illiteracy measurments: illiteracy_permuted
illiteracy_permuted = ____
# Compute Pearson correlation
perm_replicates[i] = ____
# Compute p-value: p
p = ____
print('p-val =', p)