ComeçarComece de graça

Explorando os dados

O conjunto de dados salesData está carregado no ambiente. Ele contém informações sobre clientes dos meses um a três. Somente as vendas do mês quatro estão incluídas. A tabela a seguir descreve algumas variáveis cujo significado não é tão óbvio.

Variable Description
id identification number of customer
mostFreqStore store person bought mostly from
mostFreqCat category person purchased mostly
nCats number of different categories
preferredBrand brand person purchased mostly
nBrands number of different brands

Os pacotes readr, dplyr, corrplot e ggplot2 já foram instalados e carregados.

Este exercício faz parte do curso

Machine Learning for Marketing Analytics in R

Ver curso

Instruções do exercício

  • Use o comando de estrutura str() para obter uma visão geral dos dados.
  • Agora visualize a correlação das variáveis explicativas contínuas dos três meses anteriores com a variável de vendas deste mês. Use as funções cor() e corrplot() e o operador pipe. Observe que as variáveis corretas já foram selecionadas para você.
  • Além disso, faça um boxplot mostrando a distribuição de salesThisMon em função dos níveis da variável categórica preferredBrand. O mesmo já foi feito para a variável categórica dependente mostFreqStore.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))
Editar e executar o código