Examinando a estrutura de entradas categóricas
Neste exercício, você vai chamar model.matrix() (docs) para
examinar como o R representa dados com entradas categóricas e numéricas para modelagem.
O conjunto de dados flowers (derivado do pacote Sleuth3) já foi carregado para você. Ele tem as seguintes colunas:
Flowers: o número médio de flores em uma planta de meadowfoamIntensity: a intensidade de um tratamento de luz aplicado à plantaTime: uma variável categórica — quando (LateouEarly) no ciclo de vida o tratamento de luz ocorreu
O objetivo final é prever Flowers como função de Time e Intensity.
Este exercício faz parte do curso
Aprendizado Supervisionado em R: Regressão
Instruções do exercício
- Chame a função
str()emflowerspara ver os tipos de cada coluna. - Use a função
unique()na colunaflowers$Timepara ver os valores possíveis queTimeassume. Quantos valores únicos existem? - Crie uma fórmula para expressar
Flowerscomo função deIntensityeTime. Atribua-a à variávelfmlae imprima-a. - Use
fmlaemodel.matrix()para criar a matriz do modelo para o data frameflowers. Atribua-a à variávelmmat. - Use
head()para examinar as primeiras 20 linhas deflowers. - Agora examine as primeiras 20 linhas de
mmat.- A coluna numérica
Intensityestá diferente? - O que aconteceu com a coluna categórica
Timedeflowers? - Como
Time == 'Early'é representado? ETime == 'Late'?
- A coluna numérica
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Call str on flowers to see the types of each column
___
# Use unique() to see how many possible values Time takes
___
# Build and print a formula to express Flowers as a function of Intensity and Time: fmla
(fmla <- ___("Flowers ~ Intensity + Time"))
# Use fmla and model.matrix to see how the data is represented for modeling
mmat <- ___
# Examine the first 20 lines of flowers
___
# Examine the first 20 lines of mmat
___