Data-encoding

Encodering van categorische data maakt ze bruikbaar voor machine learning-algoritmen. R codeert factoren intern, maar encodering is nodig als je je eigen modellen ontwikkelt.

In deze oefening bouw je eerst een lineair model met lm() en ontwikkel je daarna stap voor stap je eigen model.

Bij one-hot-encoding wordt voor elk niveau een aparte kolom aangemaakt.

Let op: één van de kolommen is af te leiden uit de andere (bijv. 0'en in de kolommen "B" en "C" betekenen 1 in kolom "A"). Je kunt de eerste kolom dus weglaten voor de lineaire regressie. We behandelen lineaire modellen uitgebreider in het volgende hoofdstuk.

Voor one-hot-encoding kun je dummyVars() uit het caret-pakket gebruiken.

Om het te gebruiken, maak je eerst de encoder aan en transformeer je daarna de gegevensset:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

De complete cases van de enquêtedataset uit het MASS-pakket zijn beschikbaar als survey. Het caret-pakket is al vooraf geladen.

Deze oefening maakt deel uit van de cursus

Oefenen met statistiek-vragen voor sollicitaties in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit a linear model
lm(___ ~ Exer, data = ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Oefenen met statistiek-vragen voor sollicitaties in R

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Wil je je kans vergroten om je sollicitatiegesprek te rocken? Fris dan je kennis van de kansrekening op. In dit hoofdstuk werpen we dobbelstenen en doen we basketschoten om kansen uit te leggen met voorbeelden uit het dagelijks leven.

Exercise 1: Discrete verdelingen Exercise 2: Kansfuncties Exercise 3: Bernoulli-proeven Exercise 4: Binomiale verdeling Exercise 5: Continue verdelingen Exercise 6: Uniforme verdeling Exercise 7: Vorm van de normale verdeling Exercise 8: Steekproef uit normale verdeling Exercise 9: Centrale limietstelling Exercise 10: Wet van de grote aantallen Exercise 11: Central limit theorem simuleren

Spreekt de vacature je aan? Bekijk dan vóór je gesprek de beschrijvende statistiek nog eens. In dit hoofdstuk oefen je met exploratieve data-analyse (EDA) met gasprijzen en data uit een enquêteanalyse.

Exercise 1: Beschrijvende statistiek Exercise 2: Maatstaven voor centraliteit Exercise 3: Spreidingsmaten Exercise 4: Categorische gegevens Exercise 5: Analyse van enquêtegegevens Exercise 6: Data-encoding

Huidige oefening

Exercise 7: Tijdreeksen Exercise 8: Tijdreeksobject Exercise 9: Time series opschonen Exercise 10: Hoofcomponentenanalyse Exercise 11: PCA - rotatie Exercise 12: PCA - dimensiereductie

Stap vol vertrouwen je sollicitatiegesprek in na het herhalen van betrouwbaarheidsintervallen. We lopen de t-toets, ANOVA en normaliteitstoetsen door om je voor te bereiden op codeervragen over statistiek.

Exercise 1: Normaliteitstoetsen Exercise 2: Shapiro-Wilk-toets Exercise 3: Q-Q-plot Exercise 4: Inferentie voor een gemiddelde Exercise 5: Betrouwbaarheidsinterval Exercise 6: Eenzijdige t-toets met één steekproef Exercise 7: Twee gemiddelden vergelijken Exercise 8: t-toets voor twee steekproeven Exercise 9: Gepaarde test Exercise 10: ANOVA Exercise 11: Groepen vergelijken Exercise 12: ANOVA voor plantengroei

Gaat je mogelijke werkgever je R-vaardigheden testen? Zorg dat je voorbereid bent en oefen vooraf met modelevaluatie. In dit hoofdstuk passen en evalueren we lineaire en logistische regressiemodellen met verschillende biomedische gegevenssets. Aan het einde van dit hoofdstuk ben je helemaal klaar om elke vraag van de interviewer te beantwoorden!

Exercise 1: Covariantie en correlatie Exercise 2: Covariantie uitrekenen Exercise 3: Lineair verband Exercise 4: Niet-lineair verband Exercise 5: Lineair regressiemodel Exercise 6: Lineaire modellen fitten Exercise 7: Voorspellen met lineaire modellen Exercise 8: Logistisch regressiemodel Exercise 9: Logistische modellen fitten Exercise 10: Voorspellen met logistische modellen Exercise 11: Modelbeoordeling Exercise 12: Validatieset-aanpak Exercise 13: Regressie-evaluatie Exercise 14: Evaluatie van classificatie Exercise 15: Afronding