Codeer een eenvoudige regressie met één variabele
In deze eerste codeeropdracht maak je een formule voor een model met één variabele en pas je vervolgens een lineair model op de data. Je krijgt de percentages mannelijke en vrouwelijke werkloosheid in de Verenigde Staten over meerdere jaren (Bron).
De taak is om het percentage vrouwelijke werkloosheid te voorspellen op basis van het waargenomen percentage mannelijke werkloosheid.
De uitkomst is female_unemployment, en de input is male_unemployment.
Het teken van de variabelecoëfficiënt vertelt je of de uitkomst toeneemt (+) of afneemt (-) naarmate de variabele toeneemt.
Onthoud dat de aanroep voor lm() (docs) is:
lm(formula, data = ___)
Het data frame unemployment is al voor je geladen.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Regressie
Oefeninstructies
- Definieer een formule die
female_unemploymentuitdrukt als functie vanmale_unemployment. Ken de formule toe aan de variabelefmlaen print deze. - Gebruik daarna
lm()enfmlaom een lineair model te fitten dat vrouwelijke werkloosheid voorspelt op basis van mannelijke werkloosheid met de gegevenssetunemployment. - Print het model. Is de coëfficiënt voor mannelijke werkloosheid in lijn met wat je zou verwachten? Neemt de vrouwelijke werkloosheid toe als de mannelijke werkloosheid toeneemt?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# unemployment is available
summary(unemployment)
# Define a formula to express female_unemployment as a function of male_unemployment
fmla <- ___
# Print it
___
# Use the formula to fit a model: unemployment_model
unemployment_model <- ___
# Print it
___