Lineaire regressie

We nemen aan dat vruchtbaarheid een lineaire functie is van het percentage vrouwelijke analfabetisme. Dus, \(f = a i + b\), waarbij \(a\) de helling is en \(b\) het snijpunt. Je kunt het snijpunt zien als het minimale vruchtbaarheidscijfer, waarschijnlijk ergens tussen één en twee. De helling laat zien hoe het vruchtbaarheidscijfer varieert met analfabetisme. We kunnen de best passende lijn vinden met np.polyfit().

Plot de data en de best passende lijn. Print de helling en het snijpunt. (Denk na: wat zijn hun eenheden?)

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

Oefeninstructies

Bereken de helling en het snijpunt van de regressielijn met np.polyfit(). Denk eraan: fertility staat op de y-as en illiteracy op de x-as.
Print de helling en het snijpunt van de lineaire regressie.
Om de best passende lijn te plotten, maak je een array x die bestaat uit 0 en 100 met np.array(). Bereken daarna de theoretische waarden van y op basis van je regressieparameters, dus y = a * x + b.
Plot de data en de regressielijn in dezelfde figuur. Vergeet niet je assen te labelen.
Klik op Antwoord verzenden om je plot te tonen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Plot the illiteracy rate versus fertility
_ = plt.plot(illiteracy, fertility, marker='.', linestyle='none')
plt.margins(0.02)
_ = plt.xlabel('percent illiterate')
_ = plt.ylabel('fertility')

# Perform a linear regression using np.polyfit(): a, b
a, b = ____

# Print the results to the screen
print('slope =', a, 'children per woman / percent illiterate')
print('intercept =', b, 'children per woman')

# Make theoretical line to plot
x = ____
y = ____ * ____ + ____

# Add regression line to your plot
_ = plt.plot(____, ____)

# Draw the plot
plt.show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Statistical Thinking in Python (deel 2)

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Bij statistische inferentie spreken we de taal van de kansrekening. Een kansverdeling die je gegevens beschrijft, heeft parameters. Een belangrijk doel van statistische inferentie is dus het schatten van de waarden van deze parameters. Daarmee kun je je gegevens bondig en eenduidig beschrijven en er conclusies uit trekken. In dit hoofdstuk leer je hoe je de optimale parameters vindt: die welke je gegevens het best beschrijven.

Exercise 1: Optimale parameters Exercise 2: Hoe vaak komen no-hitters voor?Exercise 3: Volgen de data ons verhaal?Exercise 4: Waarom is deze parameter optimaal?Exercise 5: Lineaire regressie met kleinste kwadraten Exercise 6: EDA van geletterdheid/vruchtbaarheid Exercise 7: Lineaire regressie

Huidige oefening

Exercise 8: Hoe is het optimaal?Exercise 9: Het belang van EDA: het kwartet van Anscombe Exercise 10: Het belang van EDA Exercise 11: Lineaire regressie op geschikte Anscombe-gegevens Exercise 12: Lineaire regressie op alle Anscombe-gegevens

Zichzelf "aan de eigen veters uit het moeras trekken" is een klassieke uitdrukking die betekent dat je een moeilijke taak helemaal op eigen kracht uitvoert. Bij statistische inferentie wil je weten wat er zou gebeuren als je je dataverzameling oneindig vaak kon herhalen. Dat is onmogelijk, maar kunnen we met alleen de gegevens die we daadwerkelijk hebben toch dicht in de buurt komen van het resultaat van ontelbare experimenten? Het antwoord is ja! De techniek hiervoor heet terecht bootstrapping. In dit hoofdstuk maak je kennis met dit buitengewoon krachtige hulpmiddel.

Exercise 1: Bootstrap-replicaten genereren Exercise 2: De terminologie op orde krijgen Exercise 3: Bootstrappen met de hand Exercise 4: Bootstrap-steekproeven visualiseren Exercise 5: Bootstrap-betrouwbaarheidsintervallen Exercise 6: Veel bootstrap-replicaten genereren Exercise 7: Bootstrap-replicaties van het gemiddelde en de SEM Exercise 8: Betrouwbaarheidsintervallen van neerslagdata Exercise 9: Bootstrap-replicaten van andere statistieken Exercise 10: Betrouwbaarheidsinterval voor het aantal no-hitters Exercise 11: Pairs-bootstrap Exercise 12: Een functie voor pairs bootstrap Exercise 13: Pairs-bootstrap van analfabetisme/vruchtbaarheid-gegevens Exercise 14: Bootstrapregressies plotten

Je weet nu hoe je, gegeven een model, parameters definieert en schat. Maar de vraag blijft: hoe redelijk is het om je gegevens te observeren als het model waar is? Die vraag pak je aan met hypothesetoetsen. Ze zijn de kers op de inferentietaart. Na dit hoofdstuk kun je zorgvuldig hypothesen opstellen en toetsen met hackerstatistiek.

Exercise 1: Een hypothese formuleren en simuleren Exercise 2: Een permutatiesteekproef genereren Exercise 3: Permutatiemonsters visualiseren Exercise 4: Toetsstatistieken en p-waarden Exercise 5: Toetsingsgrootheden Exercise 6: Wat is een p-waarde?Exercise 7: Permutatiereplicaten genereren Exercise 8: Kijk voordat je springt: EDA vóór hypothesetoetsen Exercise 9: Permutatietest op kikkersdata Exercise 10: Bootstrap-toetsen voor hypothesen Exercise 11: Een bootstrap-hypothesetoets met één steekproef Exercise 12: Een tweesteeks bootstrap-hypothesetoets voor het verschil in gemiddelden

Zoals je in het vorige hoofdstuk zag, kan hypothesetoetsen best lastig zijn. Je moet de nulhypothese definiëren, uitvogelen hoe je die simuleert en duidelijk vastleggen wat "extremer" betekent om de p-waarde te berekenen. Zoals met elke vaardigheid geldt: oefening baart kunst. In dit hoofdstuk krijg je waardevolle oefening met hypothesetoetsen.

Exercise 1: A/B-testen Exercise 2: De stemming over de Civil Rights Act in 1964 Exercise 3: Wat is equivalent?Exercise 4: Een analogie met tijd op de website Exercise 5: Wat had je eerst moeten doen?Exercise 6: Toets op correlatie Exercise 7: Een nulhypothese over correlatie simuleren Exercise 8: Hypothesetoets op Pearson-correlatie Exercise 9: Hebben neonicotinoïde insecticiden onbedoelde gevolgen?Exercise 10: Bootstrap-hypothesetoets op spermatelling bij bijen

Al meer dan 40 jaar gaan Peter en Rosemary Grant elk jaar naar het Galápagos-eiland Daphne Major om gegevens te verzamelen over Darwins vinken. Met je vaardigheden in statistische inferentie ga je in dit hoofdstuk met hun data aan de slag en zie je van dichtbij, via data, evolutie in actie. Een spannende manier om de cursus af te sluiten!

Exercise 1: Vinkensnavels en de noodzaak van statistiek Exercise 2: EDA van snaveldieptes van Darwinvinken Exercise 3: ECDF's van snavel dieptes Exercise 4: Parameterinschattingen van snaveldieptes Exercise 5: Hypothesetoets: Zijn snavels dieper in 2012?Exercise 6: Variatie in snavelvormen Exercise 7: EDA van snavellengte en -diepte Exercise 8: Lineaire regressies Exercise 9: De resultaten van de lineaire regressie weergeven Exercise 10: Verhouding snavellengte tot -diepte Exercise 11: Hoe anders is de verhouding?Exercise 12: Berekening van erfelijkheid Exercise 13: EDA van erfelijkheid Exercise 14: Correlatie tussen nakomelingen en ouders Exercise 15: Pearson-correlatie tussen nakomelingen en ouders Exercise 16: Erfelijkheid meten Exercise 17: Is snaveldiepte überhaupt erfelijk in G. scandens?Exercise 18: Tot slot