Model aanpassen op trainingsgegevens

Het is tijd om je gegevens te splitsen in een trainingsset om een model te fitten en een aparte testset om de voorspellende kracht van het model te evalueren. Voordat we deze splitsing maken, nemen we eerst een steekproef van 100% van de rijen van house_prices zonder terugleggen en wijzen dit toe aan house_prices_shuffled. Dit zorgt ervoor dat de rijen worden "geschud", zodat de trainings- en testset willekeurig worden getrokken.

Deze oefening maakt deel uit van de cursus

Modelleren met data in de Tidyverse

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelleren met data in de Tidyverse

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met achtergrondtheorie en terminologie rond modelleren, in het bijzonder het algemene modelleringskader, het verschil tussen modelleren om te verklaren en modelleren om te voorspellen, en het modelleringsprobleem. Daarnaast begin je met je eerste verkennende data-analyse, een cruciale eerste stap vóór je formeel gaat modelleren.

Exercise 1: Achtergrond bij modelleren voor uitleg Exercise 2: Verkennende visualisatie van leeftijd Exercise 3: Numerieke samenvattingen van leeftijd Exercise 4: Achtergrond over modelleren voor voorspelling Exercise 5: Exploratieve visualisatie van huisgrootte Exercise 6: Log10-transformatie van huisoppervlak Exercise 7: Het modelleringsprobleem voor uitleg Exercise 8: EDA van de relatie tussen onderwijsscores en "beauty"-scores Exercise 9: Correlatie tussen lesgeven en "beauty"-scores Exercise 10: Het modelleringsprobleem voor voorspelling Exercise 11: EDA van de relatie tussen huizenprijs en waterfront Exercise 12: Huizenprijs voorspellen met waterfront

Met je begrip van het algemene modelleringskader op zak behandelen we in dit hoofdstuk basis-lineaire regressie, waarbij je het eenvoudig houdt en de uitkomstvariabele y modelleert als een functie van één enkele verklarende/voorspellende variabele x. We gebruiken zowel numerieke als categorische x-variabelen. De uitkomstvariabele in dit hoofdstuk is de onderwijsevaluatiescore van docenten aan de University of Texas, Austin.

Exercise 1: Uitleg van onderwijsscore met leeftijd Exercise 2: Een "best passende" regressielijn plotten Exercise 3: Een regressie fitten met een numerieke x Exercise 4: Voorspellen van onderwijsscore met leeftijd Exercise 5: Voorspellingen maken met de "beauty score"Exercise 6: Aangepaste/voorspelde waarden en residuen berekenen Exercise 7: Onderwijsscore verklaren met geslacht Exercise 8: EDA van de relatie tussen score en rang Exercise 9: Een regressie fitten met een categorische x Exercise 10: Onderwijsscore voorspellen op basis van geslacht Exercise 11: Voorspellingen maken met rank Exercise 12: De verdeling van residuals visualiseren

In het vorige hoofdstuk leerde je over basale regressie met één numerieke of één categorische voorspeller. Maar waarom zouden we ons beperken tot slechts één variabele voor je verklaringen/voorspellingen? Je breidt nu basale regressie uit naar multiple regressie, waarmee je meer dan één verklarende of voorspellende variabele in je modellen kunt opnemen. Je modelleert woningprijzen met een gegevensset van huizen in het grootstedelijk gebied van Seattle, WA.

Exercise 1: Huizenprijs uitleggen met bouwjaar en grootte Exercise 2: EDA van relatie Exercise 3: Een regressie fitten Exercise 4: Huizenprijs voorspellen met bouwjaar en grootte Exercise 5: Voorspellen met oppervlakte en slaapkamers Exercise 6: Residuen interpreteren Exercise 7: Huizenprijs verklaren met grootte en staat Exercise 8: Model met evenwijdige hellingen Exercise 9: Het parallelle hellingenmodel interpreteren Exercise 10: Huisprijs voorspellen met grootte en staat Exercise 11: Voorspellingen maken met grootte en waterfront Exercise 12: Voorspellingen automatiseren voor "nieuwe" huizen

In de vorige hoofdstukken heb je verschillende modellen gefit om een uitkomstvariabele te verklaren of te voorspellen. Maar hoe weten we welke modellen we moeten kiezen? Maten voor modelbeoordeling laten je zien hoe goed een verklarend model op een dataset "past" of hoe nauwkeurig een voorspellend model is. Op basis van deze maten leer je over criteria om te bepalen welke modellen "het best" zijn.

Exercise 1: Modelselectie en -beoordeling Exercise 2: Opfrisser: som van gekwadrateerde residuen Exercise 3: Welk model kies je?Exercise 4: Modelpassing beoordelen met R-kwadraat Exercise 5: De R-kwadraat (R-squared) van een model berekenen Exercise 6: De R-kwadraat van twee modellen vergelijken Exercise 7: Voorspellingen beoordelen met RMSE Exercise 8: De MSE en RMSE van een model berekenen Exercise 9: De RMSE van twee modellen vergelijken Exercise 10: Voorspellingskader met een validatieset Exercise 11: Model aanpassen op trainingsgegevens

Huidige oefening

Exercise 12: Voorspellen op testgegevens Exercise 13: Conclusie - Hoe nu verder?