Voorspellen met het werkloosheidsmodel
In deze oefening gebruik je je werkloosheidsmodel unemployment_model om voorspellingen te maken op de unemployment-data, en vergelijk je de voorspelde vrouwelijke werkloosheidspercentages met de daadwerkelijk geobserveerde vrouwelijke werkloosheidspercentages in de trainingsdata, unemployment. Je gebruikt je model ook om te voorspellen op de nieuwe data in newrates, die uit slechts één observatie bestaat, waarbij mannelijke werkloosheid 5% is.
De interface predict() (docs) voor lm-modellen heeft de vorm
predict(model, newdata)
Je gebruikt het ggplot2-pakket om de grafieken te maken, dus je voegt de kolom met voorspellingen toe aan het data frame unemployment. Je plot de uitkomst versus de voorspelling en vergelijkt die met de lijn die perfecte voorspellingen weergeeft (dus wanneer de uitkomst gelijk is aan de voorspelde waarde).
Het ggplot2-commando om een scatterplot te maken van dframe$outcome versus dframe$pred (pred op de x-as, outcome op de y-as), samen met een blauwe lijn waar outcome == pred geldt, is als volgt:
ggplot(dframe, aes(x = pred, y = outcome)) +
geom_point() +
geom_abline(color = "blue")
unemployment, unemployment_model en newrates zijn alvast voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Regressie
Oefeninstructies
- Gebruik
predict()om vrouwelijke werkloosheidspercentages te voorspellen uit deunemployment-data. Sla dit op in een nieuwe kolom:prediction. - Gebruik het commando
library()om hetggplot2-pakket te laden. - Gebruik
ggplot()om de voorspellingen te vergelijken met de daadwerkelijke werkloosheidspercentages. Zet de voorspellingen op de x-as. Hoe dicht liggen de resultaten bij de lijn van perfecte voorspelling? - Gebruik het data frame
newratesom het verwachte vrouwelijke werkloosheidspercentage te voorspellen wanneer mannelijke werkloosheid 5% is. Sla het antwoord op in de variabelepreden print het.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# unemployment is available
summary(unemployment)
# newrates is available
newrates
# Predict female unemployment in the unemployment dataset
unemployment$prediction <- ___
# Load the ggplot2 package
___
# Make a plot to compare predictions to actual (prediction on x axis).
ggplot(___, aes(x = ___, y = ___)) +
___ +
geom_abline(color = "blue")
# Predict female unemployment rate when male unemployment is 5%
pred <- ___
pred