Esaminare la struttura degli input categorici
In questo esercizio userai model.matrix() (docs) per
esaminare come R rappresenta, ai fini del modeling, dati con input sia categorici sia numerici.
Il dataset flowers (derivato dal pacchetto Sleuth3) è già stato caricato. Contiene le seguenti colonne:
Flowers: il numero medio di fiori su una pianta di meadowfoamIntensity: l’intensità di un trattamento luminoso applicato alla piantaTime: una variabile categorica — quando (LateoEarly) nel ciclo di vita è avvenuto il trattamento luminoso
L’obiettivo finale è prevedere Flowers in funzione di Time e Intensity.
Questo esercizio fa parte del corso
Supervised Learning in R: Regression
Istruzioni dell'esercizio
- Chiama la funzione
str()suflowersper vedere i tipi di ciascuna colonna. - Usa la funzione
unique()sulla colonnaflowers$Timeper vedere i possibili valori assunti daTime. Quanti valori unici ci sono? - Crea una formula per esprimere
Flowersin funzione diIntensityeTime. Assegnala alla variabilefmlae stampala. - Usa
fmlaemodel.matrix()per creare la matrice del modello per il data frameflowers. Assegnala alla variabilemmat. - Usa
head()per esaminare le prime 20 righe diflowers. - Ora esamina le prime 20 righe di
mmat.- La colonna numerica
Intensityè diversa? - Che cosa è successo alla colonna categorica
Timediflowers? - Come è rappresentato
Time == 'Early'? ETime == 'Late'?
- La colonna numerica
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Call str on flowers to see the types of each column
___
# Use unique() to see how many possible values Time takes
___
# Build and print a formula to express Flowers as a function of Intensity and Time: fmla
(fmla <- ___("Flowers ~ Intensity + Time"))
# Use fmla and model.matrix to see how the data is represented for modeling
mmat <- ___
# Examine the first 20 lines of flowers
___
# Examine the first 20 lines of mmat
___