Normale verdeling

Door naar de meest herkenbare en nuttige verdeling: de normale ofwel Gaussische verdeling. In de dia's hebben we kort de klokvorm besproken en hoe de normale verdeling samen met de centrale limietstelling ons in staat stelt hypothesetoetsen uit te voeren.

Net als in de vorige oefeningen ga je hier eerst data simuleren en de verdeling bekijken. Daarna ga je een laagje dieper en onderzoek je de kans op bepaalde observaties.

Deze oefening maakt deel uit van de cursus

Statistiek-vragen voor sollicitaties oefenen in Python

Oefeninstructies

Genereer de data voor de verdeling met de functie rvs() met size op 1000; sla dit op in de variabele data.
Toon een matplotlib-histogram; bekijk de vorm van de verdeling.
Gegeven een gestandaardiseerde normale verdeling, wat is de kans op een observatie groter dan 2?
Kijkend naar ónze steekproef, wat is de kans op een observatie groter dan 2?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Generate normal data
from scipy.stats import norm
data = norm.rvs(size=____)

# Plot distribution
plt.hist(____)
plt.show()

# Compute and print true probability for greater than 2
true_prob = 1 - norm.cdf(____)
print(____)

# Compute and print sample probability for greater than 2
sample_prob = sum(obs > ____ for obs in data) / len(____)
print(____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Statistiek-vragen voor sollicitaties oefenen in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk trapt de cursus af met een herhaling van conditionele kansen, de stelling van Bayes en de centrale limietstelling. Onderweg leer je hoe je vragen aanpakt die gebruikmaken van veelvoorkomende kansverdelingen.

Exercise 1: Voorwaardelijke kansen Exercise 2: Problemen opzetten Exercise 3: Stelling van Bayes toegepast Exercise 4: Centrale limietstelling Exercise 5: Steekproeven van een gegooide dobbelsteen Exercise 6: Centrale limietstelling simuleren Exercise 7: Kansverdelingen Exercise 8: Bernoulli-verdeling Exercise 9: Binomiale verdeling Exercise 10: Normale verdeling

Huidige oefening

In dit hoofdstuk bereid je je voor op statistische concepten rond exploratieve data-analyse. Onderwerpen zijn onder meer beschrijvende statistiek, omgaan met categorische variabelen en relaties tussen variabelen. De oefeningen bereiden je voor op een analytische toets of een codeervraag gebaseerd op statistiek.

Exercise 1: Beschrijvende statistiek Exercise 2: Gemiddelde of mediaan Exercise 3: Standaarddeviatie uitwerken Exercise 4: Categorische data Exercise 5: Encoderingstechnieken Exercise 6: Laptopprijzen verkennen Exercise 7: Twee of meer variabelen Exercise 8: Soorten relaties Exercise 9: Pearson-correlatie Exercise 10: Gevoeligheid voor uitschieters

Bereid je voor om dieper te duiken in cruciale concepten rond experimenten en toetsen door betrouwbaarheidsintervallen, hypothesetoetsing, multiple testing en de rol van power en steekproefgrootte te herhalen. We bespreken ook soorten fouten en wat die in de praktijk betekenen.

Exercise 1: Betrouwbaarheidsintervallen Exercise 2: Betrouwbaarheidsinterval met de hand Exercise 3: Betrouwbaarheidsintervallen toepassen Exercise 4: Hypothesetoetsing Exercise 5: Eenzijdige z-toets Exercise 6: Twee-zijdige t-test Exercise 7: Power en steekproefgrootte Exercise 8: Effect op type II-fout Exercise 9: Steekproefgrootte berekenen Exercise 10: De relatie visualiseren Exercise 11: Meervoudig testen Exercise 12: Foutenpercentages berekenen Exercise 13: Bonferroni-correctie

Tot slot behandelen we concepten die nauw samenhangen met regressie- en classificatiemodellen. Het hoofdstuk begint met een herhaling van fundamentele Machine Learning-algoritmen en gaat al snel door naar modelevaluatie, omgaan met speciale gevallen en de bias-variance trade-off.

Exercise 1: Regressiemodellen Exercise 2: Lineaire regressie Exercise 3: Logistic regression Exercise 4: Modellen evalueren Exercise 5: Beoordeling van regressie Exercise 6: Evaluatie van classificatie Exercise 7: Ontbrekende gegevens en uitschieters Exercise 8: Omgaan met null-waarden Exercise 9: Uitschieters identificeren Exercise 10: Bias-variance-afruil Exercise 11: Test- en trainingsfout Exercise 12: De trade-off visualiseren Exercise 13: Afronding