RMSE berekenen

In deze oefening bereken je de RMSE van je werkloosheidsmodel. In de vorige codeoefeningen heb je twee kolommen toegevoegd aan de unemployment-gegevensset:

de voorspellingen van het model (kolom predictions)
de residualen tussen de voorspellingen en de uitkomst (kolom residuals)

Je kunt de RMSE berekenen uit een vector met residualen, \(res\), als:

$$ RMSE = \sqrt{\operatorname{mean}(res^2)} $$

Je wilt dat de RMSE klein is. Hoe klein is "klein"? Een vuistregel is om de RMSE te vergelijken met de standaarddeviatie van de uitkomst. Bij een goed model is de RMSE kleiner.

Het unemployment-dataframe is alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Oefeninstructies

Bekijk de unemployment-data uit de vorige oefening.
Wijs voor het gemak de kolom residuals uit unemployment toe aan de variabele res.
Bereken de RMSE: kwadrateer res, neem daarvan het gemiddelde en neem vervolgens de wortel. Wijs dit toe aan de variabele rmse en print deze.
- Tip: je kunt dit in één stap doen door de toewijzing tussen haakjes te zetten: (rmse <- ___)
Bereken de standaarddeviatie van female_unemployment en wijs deze toe aan de variabele sd_unemployment. Print deze. Hoe verhoudt de rmse van het model zich tot de standaarddeviatie van de data?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print a summary of unemployment
summary(unemployment)

# For convenience put the residuals in the variable res
res <- ___

# Calculate RMSE, assign it to the variable rmse and print it
(rmse <- ___)

# Calculate the standard deviation of female_unemployment and print it
(sd_unemployment <- ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk introduceren we het concept regressie vanuit een Machine Learning-perspectief. We behandelen de fundamentele regressiemethode: lineaire regressie. We laten zien hoe je een lineair regressiemodel fit en er voorspellingen mee maakt.

Exercise 1: Welkom en introductie Exercise 2: Herken de regression-taken Exercise 3: Lineaire regressie - de basismethode Exercise 4: Codeer een eenvoudige regressie met één variabele Exercise 5: Een model onderzoeken Exercise 6: Voorspellen nadat je een model hebt gefit Exercise 7: Voorspellen met het werkloosheidsmodel Exercise 8: Multivariate lineaire regressie (deel 1)Exercise 9: Multivariate lineaire regressie (deel 2)Exercise 10: Afronding van lineaire regressie

Nu we hebben geleerd hoe je eenvoudige lineaire regressiemodellen fit, gaan we bekijken hoe je beoordeelt hoe goed je modellen presteren. We lopen door het grafisch evalueren van een model en bekijken twee basisstatistieken voor regressiemodellen. We leren ook hoe je een model traint dat in de praktijk goed presteert, niet alleen op de trainingsdata. Hoewel we deze technieken demonstreren met lineaire regressie, gelden al deze concepten voor modellen die met elk regressie-algoritme zijn gefit.

Exercise 1: Een model grafisch evalueren Exercise 2: Beoordeel het werkloosheidsmodel grafisch Exercise 3: De gain-curve om het werkloosheidsmodel te evalueren Exercise 4: Root Mean Squared Error (RMSE)Exercise 5: RMSE berekenen

Huidige oefening

Exercise 6: R-kwadraat Exercise 7: R-squared berekenen Exercise 8: Correlatie en R-kwadraat Exercise 9: Een model goed trainen Exercise 10: Een willekeurige test/train-split maken Exercise 11: Train een model met een test/train-split Exercise 12: Evalueer een model met een train/test-split Exercise 13: Maak een cross-validatieplan Exercise 14: Evalueer een modelleringsprocedure met n-voudige crossvalidatie

Voordat we doorgaan naar meer geavanceerde regressietechnieken, kijken we naar enkele andere modelleerkwesties: modelleren met categorische inputs, interacties tussen variabelen, en wanneer je zou overwegen om inputs en outputs te transformeren vóór het modelleren. Hoewel geavanceerdere regressietechnieken sommige van deze punten automatisch afhandelen, is het belangrijk ze te kennen om te begrijpen welke methoden welke kwesties het best aanpakken — en welke je nog zelf moet beheren.

Exercise 1: Categorische invoervariabelen Exercise 2: De structuur van categorische input verkennen Exercise 3: Modelleren met categorische inputs Exercise 4: Interacties Exercise 5: Een interactie modelleren Exercise 6: Een interactie modelleren (2)Exercise 7: De respons transformeren vóór het modelleren Exercise 8: Relatieve fout Exercise 9: Modeleren met log-getransformeerde monetaire output Exercise 10: RMSE vergelijken met root-mean-squared relatieve fout Exercise 11: Invoer transformeren vóór het modelleren Exercise 12: Inputtransformaties: de "hockeystick"Exercise 13: Inputtransformaties: de "hockeystick" (2)

Nu we lineaire modellen beheersen, gaan we kijken naar technieken voor situaties die niet aan de lineairheidsaannames voldoen. Dit omvat het voorspellen van kansen en frequenties (waarden tussen 0 en 1); het voorspellen van aantallen (niet-negatieve gehele waarden en bijbehorende snelheden); en responsen met een niet-lineaire maar additieve relatie tot de inputs. Deze algoritmen zijn variaties op het standaard lineaire model.

Exercise 1: Logistische regressie om kansen te voorspellen Exercise 2: Fit een model voor de overlevingskans van mussen Exercise 3: Voorspel de overleving van mussen Exercise 4: Poisson- en quasipoisson-regressie om aantallen te voorspellen Exercise 5: Poisson of quasipoisson Exercise 6: Pas een model toe om aantallen fietsverhuur te voorspellen Exercise 7: Voorspel fietsverhuur op nieuwe data Exercise 8: Visualiseer de voorspellingen voor de fietsverhuur Exercise 9: GAM om niet-lineaire transformaties te leren Exercise 10: Formules schrijven voor GAM-modellen Exercise 11: Formules schrijven voor GAM-modellen (2)Exercise 12: Modelleer sojagroei met GAM Exercise 13: Voorspellen met het sojaboonmodel op testdata

In dit hoofdstuk bekijken we modelleeralgoritmen die geen lineariteit of additiviteit veronderstellen, en die beperkte soorten interacties tussen invoervariabelen kunnen leren. Deze algoritmen zijn boomgebaseerde methoden die werken door ensembles van beslisbomen te combineren die zijn geleerd uit de trainingsdata.

Exercise 1: De intuïtie achter tree-based methoden Exercise 2: Voorspellen met een beslissingsboom Exercise 3: Random forests Exercise 4: Bouw een random forest-model voor fietsverhuur Exercise 5: Voorspel fietsverhuur met het random forest-model Exercise 6: Visualiseer voorspellingen van het random forest-fietsmodel Exercise 7: One-hot-encoding van categorische variabelen Exercise 8: vtreat op een klein voorbeeld Exercise 9: Nieuwe levels Exercise 10: vtreat op de fietsverhuurdata Exercise 11: Gradient boosting-machines Exercise 12: Bepaal het juiste aantal trees voor een gradient boosting machine Exercise 13: Train een xgboost-model voor fietsverhuur en voorspel Exercise 14: Evalueer het xgboost-model voor fietsverhuur Exercise 15: Visualiseer het xgboost-model voor fietsverhuur