De structuur van categorische input verkennen
In deze oefening roep je model.matrix() (docs) aan om te onderzoeken hoe R gegevens met zowel categorische als numerieke input voor modellering weergeeft.
De gegevensset flowers (afkomstig uit het Sleuth3-pakket) is voor je ingeladen. Deze bevat de volgende kolommen:
Flowers: het gemiddelde aantal bloemen op een meadowfoam-plantIntensity: de intensiteit van een lichtbehandeling die op de plant is toegepastTime: een categorische variabele — wanneer (LateofEarly) in de levenscyclus de lichtbehandeling plaatsvond
Het uiteindelijke doel is om Flowers te voorspellen als functie van Time en Intensity.
Deze oefening maakt deel uit van de cursus
Supervised Learning in R: Regressie
Oefeninstructies
- Roep de functie
str()aan opflowersom de types van elke kolom te zien. - Gebruik de functie
unique()op de kolomflowers$Timeom de mogelijke waarden te zien dieTimeaanneemt. Hoeveel unieke waarden zijn er? - Maak een formule om
Flowersuit te drukken als functie vanIntensityenTime. Ken deze toe aan de variabelefmlaen print hem. - Gebruik
fmlaenmodel.matrix()om de modelmatrix te maken voor het data frameflowers. Ken deze toe aan de variabelemmat. - Gebruik
head()om de eerste 20 regels vanflowerste bekijken. - Bekijk nu de eerste 20 regels van
mmat.- Is de numerieke kolom
Intensityanders? - Wat is er gebeurd met de categorische kolom
Timeuitflowers? - Hoe wordt
Time == 'Early'weergegeven? EnTime == 'Late'?
- Is de numerieke kolom
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Call str on flowers to see the types of each column
___
# Use unique() to see how many possible values Time takes
___
# Build and print a formula to express Flowers as a function of Intensity and Time: fmla
(fmla <- ___("Flowers ~ Intensity + Time"))
# Use fmla and model.matrix to see how the data is represented for modeling
mmat <- ___
# Examine the first 20 lines of flowers
___
# Examine the first 20 lines of mmat
___