Aan de slagGa gratis aan de slag

De structuur van categorische input verkennen

In deze oefening roep je model.matrix() (docs) aan om te onderzoeken hoe R gegevens met zowel categorische als numerieke input voor modellering weergeeft. De gegevensset flowers (afkomstig uit het Sleuth3-pakket) is voor je ingeladen. Deze bevat de volgende kolommen:

  • Flowers: het gemiddelde aantal bloemen op een meadowfoam-plant
  • Intensity: de intensiteit van een lichtbehandeling die op de plant is toegepast
  • Time: een categorische variabele — wanneer (Late of Early) in de levenscyclus de lichtbehandeling plaatsvond

Het uiteindelijke doel is om Flowers te voorspellen als functie van Time en Intensity.

Deze oefening maakt deel uit van de cursus

Supervised Learning in R: Regressie

Cursus bekijken

Oefeninstructies

  • Roep de functie str() aan op flowers om de types van elke kolom te zien.
  • Gebruik de functie unique() op de kolom flowers$Time om de mogelijke waarden te zien die Time aanneemt. Hoeveel unieke waarden zijn er?
  • Maak een formule om Flowers uit te drukken als functie van Intensity en Time. Ken deze toe aan de variabele fmla en print hem.
  • Gebruik fmla en model.matrix() om de modelmatrix te maken voor het data frame flowers. Ken deze toe aan de variabele mmat.
  • Gebruik head() om de eerste 20 regels van flowers te bekijken.
  • Bekijk nu de eerste 20 regels van mmat.
    • Is de numerieke kolom Intensity anders?
    • Wat is er gebeurd met de categorische kolom Time uit flowers?
    • Hoe wordt Time == 'Early' weergegeven? En Time == 'Late'?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Call str on flowers to see the types of each column
___

# Use unique() to see how many possible values Time takes
___

# Build and print a formula to express Flowers as a function of Intensity and Time: fmla
(fmla <- ___("Flowers ~ Intensity + Time"))

# Use fmla and model.matrix to see how the data is represented for modeling
mmat <- ___

# Examine the first 20 lines of flowers
___

# Examine the first 20 lines of mmat
___
Code bewerken en uitvoeren