Explorando os dados

O conjunto de dados salesData está carregado no ambiente. Ele contém informações sobre clientes dos meses um a três. Somente as vendas do mês quatro estão incluídas. A tabela a seguir descreve algumas variáveis cujo significado não é tão óbvio.

Variable	Description
id	identification number of customer
mostFreqStore	store person bought mostly from
mostFreqCat	category person purchased mostly
nCats	number of different categories
preferredBrand	brand person purchased mostly
nBrands	number of different brands

Os pacotes readr, dplyr, corrplot e ggplot2 já foram instalados e carregados.

Este exercício faz parte do curso

Machine Learning for Marketing Analytics in R

Ver curso

Instruções do exercício

Use o comando de estrutura str() para obter uma visão geral dos dados.
Agora visualize a correlação das variáveis explicativas contínuas dos três meses anteriores com a variável de vendas deste mês. Use as funções cor() e corrplot() e o operador pipe. Observe que as variáveis corretas já foram selecionadas para você.
Além disso, faça um boxplot mostrando a distribuição de salesThisMon em função dos níveis da variável categórica preferredBrand. O mesmo já foi feito para a variável categórica dependente mostFreqStore.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))

Editar e executar o código