Uno sguardo ai dati

L'insieme di dati salesData è caricato nello spazio di lavoro. Contiene informazioni sui clienti per i mesi da uno a tre. Sono incluse solo le vendite del mese quattro. La seguente tabella descrive alcune variabili dal significato meno immediato.

Variabile	Descrizione
id	numero di identificazione del cliente
mostFreqStore	negozio in cui la persona ha acquistato più spesso
mostFreqCat	categoria in cui la persona ha acquistato di più
nCats	numero di categorie diverse
preferredBrand	marca acquistata più frequentemente dalla persona
nBrands	numero di marche diverse

I pacchetti readr, dplyr, corrplot e ggplot2 sono stati installati e caricati.

Questo esercizio fa parte del corso

Machine Learning per il Marketing Analytics in R

Visualizza corso

Istruzioni dell'esercizio

Usa il comando di struttura str() per ottenere una panoramica dei dati.
Ora visualizza la correlazione delle variabili esplicative continue dei tre mesi passati con la variabile delle vendite di questo mese. Usa le funzioni cor() e corrplot() e l'operatore pipe. Nota che le variabili corrette sono già state selezionate per te.
In più, crea un boxplot che mostri la distribuzione di salesThisMon in base ai livelli della variabile categorica preferredBrand. Lo stesso è già stato fatto per la variabile dipendente categorica mostFreqStore.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))

Modifica ed esegui il codice