Explorando os dados
O conjunto de dados salesData está carregado no ambiente. Ele contém informações sobre clientes dos meses um a três. Somente as vendas do mês quatro estão incluídas. A tabela a seguir descreve algumas variáveis cujo significado não é tão óbvio.
| Variable | Description |
|---|---|
| id | identification number of customer |
| mostFreqStore | store person bought mostly from |
| mostFreqCat | category person purchased mostly |
| nCats | number of different categories |
| preferredBrand | brand person purchased mostly |
| nBrands | number of different brands |
Os pacotes readr, dplyr, corrplot e ggplot2 já foram instalados e carregados.
Este exercício faz parte do curso
Machine Learning for Marketing Analytics in R
Instruções do exercício
- Use o comando de estrutura
str()para obter uma visão geral dos dados. - Agora visualize a correlação das variáveis explicativas contínuas dos três meses anteriores com a variável de vendas deste mês. Use as funções
cor()ecorrplot()e o operador pipe. Observe que as variáveis corretas já foram selecionadas para você. - Além disso, faça um boxplot mostrando a distribuição de
salesThisMonem função dos níveis da variável categóricapreferredBrand. O mesmo já foi feito para a variável categórica dependentemostFreqStore.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Structure of dataset
str(___, give.attr = FALSE)
# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
select(-id) %>%
___
___
# Frequent stores
ggplot(salesData) +
geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))
# Preferred brand
ggplot(___) +
geom_boxplot(aes(x = ___, y = ___))