Aan de slagGa gratis aan de slag

Hypothesetoets op Pearson-correlatie

De geobserveerde correlatie tussen vrouwelijke analfabetisme en vruchtbaarheid kan ook toeval zijn; de vruchtbaarheid van een land kan in werkelijkheid volledig onafhankelijk zijn van het analfabetisme. Je gaat deze hypothese testen. Permuteer daarvoor de analfabetisme-waarden, maar laat de vruchtbaarheidswaarden vast. Dit simuleert de hypothese dat ze volledig onafhankelijk van elkaar zijn. Bereken voor elke permutatie de Pearson-correlatiecoëfficiënt en bepaal hoeveel van je permutatiereplicaties een Pearson-correlatiecoëfficiënt hebben die groter is dan de geobserveerde.

De functie pearson_r() die je in het eerste deel van deze cursus schreef om de Pearson-correlatiecoëfficiënt te berekenen, is al voor je beschikbaar.

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

Cursus bekijken

Oefeninstructies

  • Bereken de geobserveerde Pearson-correlatie tussen illiteracy en fertility.
  • Initialiseer een array om je permutatiereplicaties op te slaan.
  • Schrijf een for-lus om 10.000 replicaties te trekken:
    • Permuteer de illiteracy-metingen met np.random.permutation().
    • Bereken de Pearson-correlatie tussen de permuteerde analfabetisme-array, illiteracy_permuted, en fertility.
  • Bereken en print de p-waarde op basis van de replicaties.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Compute observed correlation: r_obs
r_obs = ____

# Initialize permutation replicates: perm_replicates
perm_replicates = np.empty(10000)

# Draw replicates
for ____ in ____:
    # Permute illiteracy measurments: illiteracy_permuted
    illiteracy_permuted = ____

    # Compute Pearson correlation
    perm_replicates[i] = ____

# Compute p-value: p
p = ____
print('p-val =', p)
Code bewerken en uitvoeren