EDA van geletterdheid/vruchtbaarheid

In de volgende paar oefeningen bekijken we de correlatie tussen vrouwelijke geletterdheid en vruchtbaarheid (gedefinieerd als het gemiddelde aantal kinderen per vrouw) wereldwijd. Voor een eenvoudigere analyse en interpretatie werken we met het analfabetismepercentage.

Het is altijd verstandig om eerst wat EDA te doen. Maak daarom een plot van vruchtbaarheid tegen analfabetisme en bereken de Pearson-correlatiecoëfficiënt. De NumPy-array illiteracy bevat het analfabetismepercentage onder vrouwen voor de meeste landen ter wereld. De array fertility bevat de bijbehorende vruchtbaarheidsgegevens.

Hier is het handig om terug te grijpen op de functie die je in de vorige cursus schreef om de Pearson-correlatiecoëfficiënt te berekenen.

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

Oefeninstructies

Plot fertility (y-as) tegen illiteracy (x-as) als een scatterplot.
Stel een marge van 2% in.
Bereken en print de Pearson-correlatiecoëfficiënt tussen illiteracy en fertility.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Plot the illiteracy rate versus fertility
_ = plt.plot(____, ____, ____='.', ____='none')

# Set the margins and label axes
plt.margins(____)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')

# Show the plot
plt.show()

# Show the Pearson correlation coefficient
print(pearson_r(____, ____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Bij statistische inferentie spreken we de taal van de kansrekening. Een kansverdeling die je gegevens beschrijft, heeft parameters. Een belangrijk doel van statistische inferentie is dus het schatten van de waarden van deze parameters. Daarmee kun je je gegevens bondig en eenduidig beschrijven en er conclusies uit trekken. In dit hoofdstuk leer je hoe je de optimale parameters vindt: die welke je gegevens het best beschrijven.

Exercise 1: Optimale parameters Exercise 2: Hoe vaak komen no-hitters voor?Exercise 3: Volgen de data ons verhaal?Exercise 4: Waarom is deze parameter optimaal?Exercise 5: Lineaire regressie met kleinste kwadraten Exercise 6: EDA van geletterdheid/vruchtbaarheid

Huidige oefening

Exercise 7: Lineaire regressie Exercise 8: Hoe is het optimaal?Exercise 9: Het belang van EDA: het kwartet van Anscombe Exercise 10: Het belang van EDA Exercise 11: Lineaire regressie op geschikte Anscombe-gegevens Exercise 12: Lineaire regressie op alle Anscombe-gegevens

Zichzelf "aan de eigen veters uit het moeras trekken" is een klassieke uitdrukking die betekent dat je een moeilijke taak helemaal op eigen kracht uitvoert. Bij statistische inferentie wil je weten wat er zou gebeuren als je je dataverzameling oneindig vaak kon herhalen. Dat is onmogelijk, maar kunnen we met alleen de gegevens die we daadwerkelijk hebben toch dicht in de buurt komen van het resultaat van ontelbare experimenten? Het antwoord is ja! De techniek hiervoor heet terecht bootstrapping. In dit hoofdstuk maak je kennis met dit buitengewoon krachtige hulpmiddel.

Exercise 1: Bootstrap-replicaten genereren Exercise 2: De terminologie op orde krijgen Exercise 3: Bootstrappen met de hand Exercise 4: Bootstrap-steekproeven visualiseren Exercise 5: Bootstrap-betrouwbaarheidsintervallen Exercise 6: Veel bootstrap-replicaten genereren Exercise 7: Bootstrap-replicaties van het gemiddelde en de SEM Exercise 8: Betrouwbaarheidsintervallen van neerslagdata Exercise 9: Bootstrap-replicaten van andere statistieken Exercise 10: Betrouwbaarheidsinterval voor het aantal no-hitters Exercise 11: Pairs-bootstrap Exercise 12: Een functie voor pairs bootstrap Exercise 13: Pairs-bootstrap van analfabetisme/vruchtbaarheid-gegevens Exercise 14: Bootstrapregressies plotten

Je weet nu hoe je, gegeven een model, parameters definieert en schat. Maar de vraag blijft: hoe redelijk is het om je gegevens te observeren als het model waar is? Die vraag pak je aan met hypothesetoetsen. Ze zijn de kers op de inferentietaart. Na dit hoofdstuk kun je zorgvuldig hypothesen opstellen en toetsen met hackerstatistiek.

Exercise 1: Een hypothese formuleren en simuleren Exercise 2: Een permutatiesteekproef genereren Exercise 3: Permutatiemonsters visualiseren Exercise 4: Toetsstatistieken en p-waarden Exercise 5: Toetsingsgrootheden Exercise 6: Wat is een p-waarde?Exercise 7: Permutatiereplicaten genereren Exercise 8: Kijk voordat je springt: EDA vóór hypothesetoetsen Exercise 9: Permutatietest op kikkersdata Exercise 10: Bootstrap-toetsen voor hypothesen Exercise 11: Een bootstrap-hypothesetoets met één steekproef Exercise 12: Een tweesteeks bootstrap-hypothesetoets voor het verschil in gemiddelden

Zoals je in het vorige hoofdstuk zag, kan hypothesetoetsen best lastig zijn. Je moet de nulhypothese definiëren, uitvogelen hoe je die simuleert en duidelijk vastleggen wat "extremer" betekent om de p-waarde te berekenen. Zoals met elke vaardigheid geldt: oefening baart kunst. In dit hoofdstuk krijg je waardevolle oefening met hypothesetoetsen.

Exercise 1: A/B-testen Exercise 2: De stemming over de Civil Rights Act in 1964 Exercise 3: Wat is equivalent?Exercise 4: Een analogie met tijd op de website Exercise 5: Wat had je eerst moeten doen?Exercise 6: Toets op correlatie Exercise 7: Een nulhypothese over correlatie simuleren Exercise 8: Hypothesetoets op Pearson-correlatie Exercise 9: Hebben neonicotinoïde insecticiden onbedoelde gevolgen?Exercise 10: Bootstrap-hypothesetoets op spermatelling bij bijen

Al meer dan 40 jaar gaan Peter en Rosemary Grant elk jaar naar het Galápagos-eiland Daphne Major om gegevens te verzamelen over Darwins vinken. Met je vaardigheden in statistische inferentie ga je in dit hoofdstuk met hun data aan de slag en zie je van dichtbij, via data, evolutie in actie. Een spannende manier om de cursus af te sluiten!

Exercise 1: Vinkensnavels en de noodzaak van statistiek Exercise 2: EDA van snaveldieptes van Darwinvinken Exercise 3: ECDF's van snavel dieptes Exercise 4: Parameterinschattingen van snaveldieptes Exercise 5: Hypothesetoets: Zijn snavels dieper in 2012?Exercise 6: Variatie in snavelvormen Exercise 7: EDA van snavellengte en -diepte Exercise 8: Lineaire regressies Exercise 9: De resultaten van de lineaire regressie weergeven Exercise 10: Verhouding snavellengte tot -diepte Exercise 11: Hoe anders is de verhouding?Exercise 12: Berekening van erfelijkheid Exercise 13: EDA van erfelijkheid Exercise 14: Correlatie tussen nakomelingen en ouders Exercise 15: Pearson-correlatie tussen nakomelingen en ouders Exercise 16: Erfelijkheid meten Exercise 17: Is snaveldiepte überhaupt erfelijk in G. scandens?Exercise 18: Tot slot