Voorspel fietsverhuur met het random forest-model

In deze oefening gebruik je het model dat je in de vorige oefening hebt getraind om de fietsverhuur voor de maand augustus te voorspellen.

De functie predict() (docs) voor een ranger-model levert een lijst op. Een van de elementen van deze lijst is predictions, een vector met voorspelde waarden. Je kunt predictions benaderen met de $-notatie voor benoemde elementen van een lijst:

predict(model, data)$predictions

Het model bike_model_rf en de gegevensset bikesAugust (voor evaluatie) zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Oefeninstructies

Roep predict() aan op bikesAugust om het aantal gehuurde fietsen in augustus (cnt) te voorspellen. Voeg de voorspellingen toe aan bikesAugust als de kolom pred.
Vul de lege plekken in om de root mean squared error van de voorspellingen te berekenen.
- Het poisson-model dat je voor deze data hebt gebouwd gaf een RMSE van ongeveer 112,6. Hoe verhoudt dit model zich?
Vul de lege plekken in om de werkelijke aantallen fietsverhuur (cnt) uit te zetten tegen de voorspellingen (pred op de x-as).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# bikesAugust is available
str(bikesAugust)

# bike_model_rf is available
bike_model_rf

# Make predictions on the August data
bikesAugust$pred <- ___(___, ___)$___

# Calculate the RMSE of the predictions
bikesAugust %>% 
  mutate(residual = ___)  %>% # calculate the residual
  summarize(rmse  = ___)      # calculate rmse

# Plot actual outcome vs predictions (predictions on x-axis)
ggplot(bikesAugust, aes(x = ___, y = ___)) + 
  geom_point() + 
  geom_abline()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk introduceren we het concept regressie vanuit een Machine Learning-perspectief. We behandelen de fundamentele regressiemethode: lineaire regressie. We laten zien hoe je een lineair regressiemodel fit en er voorspellingen mee maakt.

Exercise 1: Welkom en introductie Exercise 2: Herken de regression-taken Exercise 3: Lineaire regressie - de basismethode Exercise 4: Codeer een eenvoudige regressie met één variabele Exercise 5: Een model onderzoeken Exercise 6: Voorspellen nadat je een model hebt gefit Exercise 7: Voorspellen met het werkloosheidsmodel Exercise 8: Multivariate lineaire regressie (deel 1)Exercise 9: Multivariate lineaire regressie (deel 2)Exercise 10: Afronding van lineaire regressie

Nu we hebben geleerd hoe je eenvoudige lineaire regressiemodellen fit, gaan we bekijken hoe je beoordeelt hoe goed je modellen presteren. We lopen door het grafisch evalueren van een model en bekijken twee basisstatistieken voor regressiemodellen. We leren ook hoe je een model traint dat in de praktijk goed presteert, niet alleen op de trainingsdata. Hoewel we deze technieken demonstreren met lineaire regressie, gelden al deze concepten voor modellen die met elk regressie-algoritme zijn gefit.

Exercise 1: Een model grafisch evalueren Exercise 2: Beoordeel het werkloosheidsmodel grafisch Exercise 3: De gain-curve om het werkloosheidsmodel te evalueren Exercise 4: Root Mean Squared Error (RMSE)Exercise 5: RMSE berekenen Exercise 6: R-kwadraat Exercise 7: R-squared berekenen Exercise 8: Correlatie en R-kwadraat Exercise 9: Een model goed trainen Exercise 10: Een willekeurige test/train-split maken Exercise 11: Train een model met een test/train-split Exercise 12: Evalueer een model met een train/test-split Exercise 13: Maak een cross-validatieplan Exercise 14: Evalueer een modelleringsprocedure met n-voudige crossvalidatie

Voordat we doorgaan naar meer geavanceerde regressietechnieken, kijken we naar enkele andere modelleerkwesties: modelleren met categorische inputs, interacties tussen variabelen, en wanneer je zou overwegen om inputs en outputs te transformeren vóór het modelleren. Hoewel geavanceerdere regressietechnieken sommige van deze punten automatisch afhandelen, is het belangrijk ze te kennen om te begrijpen welke methoden welke kwesties het best aanpakken — en welke je nog zelf moet beheren.

Exercise 1: Categorische invoervariabelen Exercise 2: De structuur van categorische input verkennen Exercise 3: Modelleren met categorische inputs Exercise 4: Interacties Exercise 5: Een interactie modelleren Exercise 6: Een interactie modelleren (2)Exercise 7: De respons transformeren vóór het modelleren Exercise 8: Relatieve fout Exercise 9: Modeleren met log-getransformeerde monetaire output Exercise 10: RMSE vergelijken met root-mean-squared relatieve fout Exercise 11: Invoer transformeren vóór het modelleren Exercise 12: Inputtransformaties: de "hockeystick"Exercise 13: Inputtransformaties: de "hockeystick" (2)

Nu we lineaire modellen beheersen, gaan we kijken naar technieken voor situaties die niet aan de lineairheidsaannames voldoen. Dit omvat het voorspellen van kansen en frequenties (waarden tussen 0 en 1); het voorspellen van aantallen (niet-negatieve gehele waarden en bijbehorende snelheden); en responsen met een niet-lineaire maar additieve relatie tot de inputs. Deze algoritmen zijn variaties op het standaard lineaire model.

Exercise 1: Logistische regressie om kansen te voorspellen Exercise 2: Fit een model voor de overlevingskans van mussen Exercise 3: Voorspel de overleving van mussen Exercise 4: Poisson- en quasipoisson-regressie om aantallen te voorspellen Exercise 5: Poisson of quasipoisson Exercise 6: Pas een model toe om aantallen fietsverhuur te voorspellen Exercise 7: Voorspel fietsverhuur op nieuwe data Exercise 8: Visualiseer de voorspellingen voor de fietsverhuur Exercise 9: GAM om niet-lineaire transformaties te leren Exercise 10: Formules schrijven voor GAM-modellen Exercise 11: Formules schrijven voor GAM-modellen (2)Exercise 12: Modelleer sojagroei met GAM Exercise 13: Voorspellen met het sojaboonmodel op testdata

In dit hoofdstuk bekijken we modelleeralgoritmen die geen lineariteit of additiviteit veronderstellen, en die beperkte soorten interacties tussen invoervariabelen kunnen leren. Deze algoritmen zijn boomgebaseerde methoden die werken door ensembles van beslisbomen te combineren die zijn geleerd uit de trainingsdata.

Exercise 1: De intuïtie achter tree-based methoden Exercise 2: Voorspellen met een beslissingsboom Exercise 3: Random forests Exercise 4: Bouw een random forest-model voor fietsverhuur Exercise 5: Voorspel fietsverhuur met het random forest-model

Huidige oefening

Exercise 6: Visualiseer voorspellingen van het random forest-fietsmodel Exercise 7: One-hot-encoding van categorische variabelen Exercise 8: vtreat op een klein voorbeeld Exercise 9: Nieuwe levels Exercise 10: vtreat op de fietsverhuurdata Exercise 11: Gradient boosting-machines Exercise 12: Bepaal het juiste aantal trees voor een gradient boosting machine Exercise 13: Train een xgboost-model voor fietsverhuur en voorspel Exercise 14: Evalueer het xgboost-model voor fietsverhuur Exercise 15: Visualiseer het xgboost-model voor fietsverhuur