Uno sguardo ai dati
L'insieme di dati salesData è caricato nello spazio di lavoro. Contiene informazioni sui clienti per i mesi da uno a tre. Sono incluse solo le vendite del mese quattro. La seguente tabella descrive alcune variabili dal significato meno immediato.
| Variabile | Descrizione |
|---|---|
| id | numero di identificazione del cliente |
| mostFreqStore | negozio in cui la persona ha acquistato più spesso |
| mostFreqCat | categoria in cui la persona ha acquistato di più |
| nCats | numero di categorie diverse |
| preferredBrand | marca acquistata più frequentemente dalla persona |
| nBrands | numero di marche diverse |
I pacchetti readr, dplyr, corrplot e ggplot2 sono stati installati e caricati.
Questo esercizio fa parte del corso
Machine Learning per il Marketing Analytics in R
Istruzioni dell'esercizio
- Usa il comando di struttura
str()per ottenere una panoramica dei dati. - Ora visualizza la correlazione delle variabili esplicative continue dei tre mesi passati con la variabile delle vendite di questo mese. Usa le funzioni
cor()ecorrplot()e l'operatore pipe. Nota che le variabili corrette sono già state selezionate per te. - In più, crea un boxplot che mostri la distribuzione di
salesThisMonin base ai livelli della variabile categoricapreferredBrand. Lo stesso è già stato fatto per la variabile dipendente categoricamostFreqStore.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Structure of dataset
str(___, give.attr = FALSE)
# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
select(-id) %>%
___
___
# Frequent stores
ggplot(salesData) +
geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))
# Preferred brand
ggplot(___) +
geom_boxplot(aes(x = ___, y = ___))