Aan de slagGa gratis aan de slag

Voorspellen met het werkloosheidsmodel

In deze oefening gebruik je je werkloosheidsmodel unemployment_model om voorspellingen te maken op de unemployment-data, en vergelijk je de voorspelde vrouwelijke werkloosheidspercentages met de daadwerkelijk geobserveerde vrouwelijke werkloosheidspercentages in de trainingsdata, unemployment. Je gebruikt je model ook om te voorspellen op de nieuwe data in newrates, die uit slechts één observatie bestaat, waarbij mannelijke werkloosheid 5% is.

De interface predict() (docs) voor lm-modellen heeft de vorm

predict(model, newdata)

Je gebruikt het ggplot2-pakket om de grafieken te maken, dus je voegt de kolom met voorspellingen toe aan het data frame unemployment. Je plot de uitkomst versus de voorspelling en vergelijkt die met de lijn die perfecte voorspellingen weergeeft (dus wanneer de uitkomst gelijk is aan de voorspelde waarde).

Het ggplot2-commando om een scatterplot te maken van dframe$outcome versus dframe$pred (pred op de x-as, outcome op de y-as), samen met een blauwe lijn waar outcome == pred geldt, is als volgt:

ggplot(dframe, aes(x = pred, y = outcome)) + 
       geom_point() +  
       geom_abline(color = "blue")

unemployment, unemployment_model en newrates zijn alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Cursus bekijken

Oefeninstructies

  • Gebruik predict() om vrouwelijke werkloosheidspercentages te voorspellen uit de unemployment-data. Sla dit op in een nieuwe kolom: prediction.
  • Gebruik het commando library() om het ggplot2-pakket te laden.
  • Gebruik ggplot() om de voorspellingen te vergelijken met de daadwerkelijke werkloosheidspercentages. Zet de voorspellingen op de x-as. Hoe dicht liggen de resultaten bij de lijn van perfecte voorspelling?
  • Gebruik het data frame newrates om het verwachte vrouwelijke werkloosheidspercentage te voorspellen wanneer mannelijke werkloosheid 5% is. Sla het antwoord op in de variabele pred en print het.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# unemployment is available
summary(unemployment)

# newrates is available
newrates

# Predict female unemployment in the unemployment dataset
unemployment$prediction <-  ___

# Load the ggplot2 package
___

# Make a plot to compare predictions to actual (prediction on x axis). 
ggplot(___, aes(x = ___, y = ___)) + 
  ___ +
  geom_abline(color = "blue")

# Predict female unemployment rate when male unemployment is 5%
pred <- ___
pred
Code bewerken en uitvoeren