Hypothesetoets op Pearson-correlatie

De geobserveerde correlatie tussen vrouwelijke analfabetisme en vruchtbaarheid kan ook toeval zijn; de vruchtbaarheid van een land kan in werkelijkheid volledig onafhankelijk zijn van het analfabetisme. Je gaat deze hypothese testen. Permuteer daarvoor de analfabetisme-waarden, maar laat de vruchtbaarheidswaarden vast. Dit simuleert de hypothese dat ze volledig onafhankelijk van elkaar zijn. Bereken voor elke permutatie de Pearson-correlatiecoëfficiënt en bepaal hoeveel van je permutatiereplicaties een Pearson-correlatiecoëfficiënt hebben die groter is dan de geobserveerde.

De functie pearson_r() die je in het eerste deel van deze cursus schreef om de Pearson-correlatiecoëfficiënt te berekenen, is al voor je beschikbaar.

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

Oefeninstructies

Bereken de geobserveerde Pearson-correlatie tussen illiteracy en fertility.
Initialiseer een array om je permutatiereplicaties op te slaan.
Schrijf een for-lus om 10.000 replicaties te trekken:
- Permuteer de illiteracy-metingen met np.random.permutation().
- Bereken de Pearson-correlatie tussen de permuteerde analfabetisme-array, illiteracy_permuted, en fertility.
Bereken en print de p-waarde op basis van de replicaties.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute observed correlation: r_obs
r_obs = ____

# Initialize permutation replicates: perm_replicates
perm_replicates = np.empty(10000)

# Draw replicates
for ____ in ____:
    # Permute illiteracy measurments: illiteracy_permuted
    illiteracy_permuted = ____

    # Compute Pearson correlation
    perm_replicates[i] = ____

# Compute p-value: p
p = ____
print('p-val =', p)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Bij statistische inferentie spreken we de taal van de kansrekening. Een kansverdeling die je gegevens beschrijft, heeft parameters. Een belangrijk doel van statistische inferentie is dus het schatten van de waarden van deze parameters. Daarmee kun je je gegevens bondig en eenduidig beschrijven en er conclusies uit trekken. In dit hoofdstuk leer je hoe je de optimale parameters vindt: die welke je gegevens het best beschrijven.

Exercise 1: Optimale parameters Exercise 2: Hoe vaak komen no-hitters voor?Exercise 3: Volgen de data ons verhaal?Exercise 4: Waarom is deze parameter optimaal?Exercise 5: Lineaire regressie met kleinste kwadraten Exercise 6: EDA van geletterdheid/vruchtbaarheid Exercise 7: Lineaire regressie Exercise 8: Hoe is het optimaal?Exercise 9: Het belang van EDA: het kwartet van Anscombe Exercise 10: Het belang van EDA Exercise 11: Lineaire regressie op geschikte Anscombe-gegevens Exercise 12: Lineaire regressie op alle Anscombe-gegevens

Zichzelf "aan de eigen veters uit het moeras trekken" is een klassieke uitdrukking die betekent dat je een moeilijke taak helemaal op eigen kracht uitvoert. Bij statistische inferentie wil je weten wat er zou gebeuren als je je dataverzameling oneindig vaak kon herhalen. Dat is onmogelijk, maar kunnen we met alleen de gegevens die we daadwerkelijk hebben toch dicht in de buurt komen van het resultaat van ontelbare experimenten? Het antwoord is ja! De techniek hiervoor heet terecht bootstrapping. In dit hoofdstuk maak je kennis met dit buitengewoon krachtige hulpmiddel.

Exercise 1: Bootstrap-replicaten genereren Exercise 2: De terminologie op orde krijgen Exercise 3: Bootstrappen met de hand Exercise 4: Bootstrap-steekproeven visualiseren Exercise 5: Bootstrap-betrouwbaarheidsintervallen Exercise 6: Veel bootstrap-replicaten genereren Exercise 7: Bootstrap-replicaties van het gemiddelde en de SEM Exercise 8: Betrouwbaarheidsintervallen van neerslagdata Exercise 9: Bootstrap-replicaten van andere statistieken Exercise 10: Betrouwbaarheidsinterval voor het aantal no-hitters Exercise 11: Pairs-bootstrap Exercise 12: Een functie voor pairs bootstrap Exercise 13: Pairs-bootstrap van analfabetisme/vruchtbaarheid-gegevens Exercise 14: Bootstrapregressies plotten

Je weet nu hoe je, gegeven een model, parameters definieert en schat. Maar de vraag blijft: hoe redelijk is het om je gegevens te observeren als het model waar is? Die vraag pak je aan met hypothesetoetsen. Ze zijn de kers op de inferentietaart. Na dit hoofdstuk kun je zorgvuldig hypothesen opstellen en toetsen met hackerstatistiek.

Exercise 1: Een hypothese formuleren en simuleren Exercise 2: Een permutatiesteekproef genereren Exercise 3: Permutatiemonsters visualiseren Exercise 4: Toetsstatistieken en p-waarden Exercise 5: Toetsingsgrootheden Exercise 6: Wat is een p-waarde?Exercise 7: Permutatiereplicaten genereren Exercise 8: Kijk voordat je springt: EDA vóór hypothesetoetsen Exercise 9: Permutatietest op kikkersdata Exercise 10: Bootstrap-toetsen voor hypothesen Exercise 11: Een bootstrap-hypothesetoets met één steekproef Exercise 12: Een tweesteeks bootstrap-hypothesetoets voor het verschil in gemiddelden

Zoals je in het vorige hoofdstuk zag, kan hypothesetoetsen best lastig zijn. Je moet de nulhypothese definiëren, uitvogelen hoe je die simuleert en duidelijk vastleggen wat "extremer" betekent om de p-waarde te berekenen. Zoals met elke vaardigheid geldt: oefening baart kunst. In dit hoofdstuk krijg je waardevolle oefening met hypothesetoetsen.

Exercise 1: A/B-testen Exercise 2: De stemming over de Civil Rights Act in 1964 Exercise 3: Wat is equivalent?Exercise 4: Een analogie met tijd op de website Exercise 5: Wat had je eerst moeten doen?Exercise 6: Toets op correlatie Exercise 7: Een nulhypothese over correlatie simuleren Exercise 8: Hypothesetoets op Pearson-correlatie

Huidige oefening

Exercise 9: Hebben neonicotinoïde insecticiden onbedoelde gevolgen?Exercise 10: Bootstrap-hypothesetoets op spermatelling bij bijen

Al meer dan 40 jaar gaan Peter en Rosemary Grant elk jaar naar het Galápagos-eiland Daphne Major om gegevens te verzamelen over Darwins vinken. Met je vaardigheden in statistische inferentie ga je in dit hoofdstuk met hun data aan de slag en zie je van dichtbij, via data, evolutie in actie. Een spannende manier om de cursus af te sluiten!

Exercise 1: Vinkensnavels en de noodzaak van statistiek Exercise 2: EDA van snaveldieptes van Darwinvinken Exercise 3: ECDF's van snavel dieptes Exercise 4: Parameterinschattingen van snaveldieptes Exercise 5: Hypothesetoets: Zijn snavels dieper in 2012?Exercise 6: Variatie in snavelvormen Exercise 7: EDA van snavellengte en -diepte Exercise 8: Lineaire regressies Exercise 9: De resultaten van de lineaire regressie weergeven Exercise 10: Verhouding snavellengte tot -diepte Exercise 11: Hoe anders is de verhouding?Exercise 12: Berekening van erfelijkheid Exercise 13: EDA van erfelijkheid Exercise 14: Correlatie tussen nakomelingen en ouders Exercise 15: Pearson-correlatie tussen nakomelingen en ouders Exercise 16: Erfelijkheid meten Exercise 17: Is snaveldiepte überhaupt erfelijk in G. scandens?Exercise 18: Tot slot