Evalueer een model met een train/test-split

Nu ga je het model mpg_model testen op de testdata, mpg_test. De functies rmse() en r_squared() om RMSE en R-squared te berekenen zijn voor het gemak beschikbaar gesteld:

rmse(predcol, ycol)
r_squared(predcol, ycol)

waarbij:

predcol: de voorspelde waarden
ycol: de daadwerkelijke uitkomst

Je maakt ook een plot van de voorspellingen versus de uitkomst.

Over het algemeen presteren modellen beter op de trainingsdata dan op de testdata (al kan de testset soms "geluk" hebben). Een klein verschil in performance is prima; als de performance op training veel beter is, is er een probleem.

De dataframes mpg_train en mpg_test, en het model mpg_model zijn al vooraf geladen, net als de functies rmse() en r_squared().

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Oefeninstructies

Voorspel de stadsbrandstofefficiëntie uit hwy op de data mpg_train. Sla de voorspellingen op in de kolom pred.
Voorspel de stadsbrandstofefficiëntie uit hwy op de data mpg_test. Sla de voorspellingen op in de kolom pred.
Gebruik rmse() om de RMSE voor zowel de test- als trainingset te evalueren. Vergelijk. Lijken de prestaties op elkaar?
Doe hetzelfde met r_squared(). Lijken de prestaties op elkaar?
Gebruik ggplot2 om de voorspellingen uit te zetten tegen cty op de test-data.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Examine the objects that have been loaded
ls.str()

# predict cty from hwy for the training set
mpg_train$pred <- ___

# predict cty from hwy for the test set
mpg_test$pred <- ___

# Evaluate the rmse on both training and test data and print them
(rmse_train <- ___)
(rmse_test <- ___)


# Evaluate the r-squared on both training and test data.and print them
(rsq_train <- ___)
(rsq_test <- ___)

# Plot the predictions (on the x-axis) against the outcome (cty) on the test data
ggplot(___, aes(x = ___, y = ___)) + 
  geom_point() + 
  geom_abline()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk introduceren we het concept regressie vanuit een Machine Learning-perspectief. We behandelen de fundamentele regressiemethode: lineaire regressie. We laten zien hoe je een lineair regressiemodel fit en er voorspellingen mee maakt.

Exercise 1: Welkom en introductie Exercise 2: Herken de regression-taken Exercise 3: Lineaire regressie - de basismethode Exercise 4: Codeer een eenvoudige regressie met één variabele Exercise 5: Een model onderzoeken Exercise 6: Voorspellen nadat je een model hebt gefit Exercise 7: Voorspellen met het werkloosheidsmodel Exercise 8: Multivariate lineaire regressie (deel 1)Exercise 9: Multivariate lineaire regressie (deel 2)Exercise 10: Afronding van lineaire regressie

Nu we hebben geleerd hoe je eenvoudige lineaire regressiemodellen fit, gaan we bekijken hoe je beoordeelt hoe goed je modellen presteren. We lopen door het grafisch evalueren van een model en bekijken twee basisstatistieken voor regressiemodellen. We leren ook hoe je een model traint dat in de praktijk goed presteert, niet alleen op de trainingsdata. Hoewel we deze technieken demonstreren met lineaire regressie, gelden al deze concepten voor modellen die met elk regressie-algoritme zijn gefit.

Exercise 1: Een model grafisch evalueren Exercise 2: Beoordeel het werkloosheidsmodel grafisch Exercise 3: De gain-curve om het werkloosheidsmodel te evalueren Exercise 4: Root Mean Squared Error (RMSE)Exercise 5: RMSE berekenen Exercise 6: R-kwadraat Exercise 7: R-squared berekenen Exercise 8: Correlatie en R-kwadraat Exercise 9: Een model goed trainen Exercise 10: Een willekeurige test/train-split maken Exercise 11: Train een model met een test/train-split Exercise 12: Evalueer een model met een train/test-split

Huidige oefening

Exercise 13: Maak een cross-validatieplan Exercise 14: Evalueer een modelleringsprocedure met n-voudige crossvalidatie

Voordat we doorgaan naar meer geavanceerde regressietechnieken, kijken we naar enkele andere modelleerkwesties: modelleren met categorische inputs, interacties tussen variabelen, en wanneer je zou overwegen om inputs en outputs te transformeren vóór het modelleren. Hoewel geavanceerdere regressietechnieken sommige van deze punten automatisch afhandelen, is het belangrijk ze te kennen om te begrijpen welke methoden welke kwesties het best aanpakken — en welke je nog zelf moet beheren.

Exercise 1: Categorische invoervariabelen Exercise 2: De structuur van categorische input verkennen Exercise 3: Modelleren met categorische inputs Exercise 4: Interacties Exercise 5: Een interactie modelleren Exercise 6: Een interactie modelleren (2)Exercise 7: De respons transformeren vóór het modelleren Exercise 8: Relatieve fout Exercise 9: Modeleren met log-getransformeerde monetaire output Exercise 10: RMSE vergelijken met root-mean-squared relatieve fout Exercise 11: Invoer transformeren vóór het modelleren Exercise 12: Inputtransformaties: de "hockeystick"Exercise 13: Inputtransformaties: de "hockeystick" (2)

Nu we lineaire modellen beheersen, gaan we kijken naar technieken voor situaties die niet aan de lineairheidsaannames voldoen. Dit omvat het voorspellen van kansen en frequenties (waarden tussen 0 en 1); het voorspellen van aantallen (niet-negatieve gehele waarden en bijbehorende snelheden); en responsen met een niet-lineaire maar additieve relatie tot de inputs. Deze algoritmen zijn variaties op het standaard lineaire model.

Exercise 1: Logistische regressie om kansen te voorspellen Exercise 2: Fit een model voor de overlevingskans van mussen Exercise 3: Voorspel de overleving van mussen Exercise 4: Poisson- en quasipoisson-regressie om aantallen te voorspellen Exercise 5: Poisson of quasipoisson Exercise 6: Pas een model toe om aantallen fietsverhuur te voorspellen Exercise 7: Voorspel fietsverhuur op nieuwe data Exercise 8: Visualiseer de voorspellingen voor de fietsverhuur Exercise 9: GAM om niet-lineaire transformaties te leren Exercise 10: Formules schrijven voor GAM-modellen Exercise 11: Formules schrijven voor GAM-modellen (2)Exercise 12: Modelleer sojagroei met GAM Exercise 13: Voorspellen met het sojaboonmodel op testdata

In dit hoofdstuk bekijken we modelleeralgoritmen die geen lineariteit of additiviteit veronderstellen, en die beperkte soorten interacties tussen invoervariabelen kunnen leren. Deze algoritmen zijn boomgebaseerde methoden die werken door ensembles van beslisbomen te combineren die zijn geleerd uit de trainingsdata.

Exercise 1: De intuïtie achter tree-based methoden Exercise 2: Voorspellen met een beslissingsboom Exercise 3: Random forests Exercise 4: Bouw een random forest-model voor fietsverhuur Exercise 5: Voorspel fietsverhuur met het random forest-model Exercise 6: Visualiseer voorspellingen van het random forest-fietsmodel Exercise 7: One-hot-encoding van categorische variabelen Exercise 8: vtreat op een klein voorbeeld Exercise 9: Nieuwe levels Exercise 10: vtreat op de fietsverhuurdata Exercise 11: Gradient boosting-machines Exercise 12: Bepaal het juiste aantal trees voor een gradient boosting machine Exercise 13: Train een xgboost-model voor fietsverhuur en voorspel Exercise 14: Evalueer het xgboost-model voor fietsverhuur Exercise 15: Visualiseer het xgboost-model voor fietsverhuur