IniziaInizia gratis

Uno sguardo ai dati

L'insieme di dati salesData è caricato nello spazio di lavoro. Contiene informazioni sui clienti per i mesi da uno a tre. Sono incluse solo le vendite del mese quattro. La seguente tabella descrive alcune variabili dal significato meno immediato.

Variabile Descrizione
id numero di identificazione del cliente
mostFreqStore negozio in cui la persona ha acquistato più spesso
mostFreqCat categoria in cui la persona ha acquistato di più
nCats numero di categorie diverse
preferredBrand marca acquistata più frequentemente dalla persona
nBrands numero di marche diverse

I pacchetti readr, dplyr, corrplot e ggplot2 sono stati installati e caricati.

Questo esercizio fa parte del corso

Machine Learning per il Marketing Analytics in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il comando di struttura str() per ottenere una panoramica dei dati.
  • Ora visualizza la correlazione delle variabili esplicative continue dei tre mesi passati con la variabile delle vendite di questo mese. Usa le funzioni cor() e corrplot() e l'operatore pipe. Nota che le variabili corrette sono già state selezionate per te.
  • In più, crea un boxplot che mostri la distribuzione di salesThisMon in base ai livelli della variabile categorica preferredBrand. Lo stesso è già stato fatto per la variabile dipendente categorica mostFreqStore.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))
Modifica ed esegui il codice