Aan de slagGa gratis aan de slag

Naar data kijken

De gegevensset salesData is geladen in de werkruimte. Deze bevat informatie over klanten voor de maanden één tot en met drie. Alleen de verkoop van maand vier is opgenomen. De volgende tabel beschrijft enkele variabelen waarvan de betekenis minder voor de hand ligt.

Variable Description
id identificatienummer van klant
mostFreqStore winkel waar de persoon het meest kocht
mostFreqCat categorie die de persoon het meest kocht
nCats aantal verschillende categorieën
preferredBrand merk dat de persoon het meest kocht
nBrands aantal verschillende merken

De packages readr, dplyr, corrplot en ggplot2 zijn geïnstalleerd en geladen.

Deze oefening maakt deel uit van de cursus

Machine Learning for Marketing Analytics in R

Cursus bekijken

Oefeninstructies

  • Gebruik het structuurcommando str() om een overzicht van de data te krijgen.
  • Visualiseer nu de correlatie van de continue verklarende variabelen voor de afgelopen drie maanden met de verkoopvariabele van deze maand. Gebruik de functies cor() en corrplot() en de pipe-operator. Let op: de juiste variabelen zijn al voor je geselecteerd.
  • Maak daarnaast een boxplot die de verdeling van salesThisMon laat zien afhankelijk van de niveaus van de categorische variabele preferredBrand. Hetzelfde is al gedaan voor de categorische afhankelijke variabele mostFreqStore.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))
Code bewerken en uitvoeren