Naar data kijken

De gegevensset salesData is geladen in de werkruimte. Deze bevat informatie over klanten voor de maanden één tot en met drie. Alleen de verkoop van maand vier is opgenomen. De volgende tabel beschrijft enkele variabelen waarvan de betekenis minder voor de hand ligt.

Variable	Description
id	identificatienummer van klant
mostFreqStore	winkel waar de persoon het meest kocht
mostFreqCat	categorie die de persoon het meest kocht
nCats	aantal verschillende categorieën
preferredBrand	merk dat de persoon het meest kocht
nBrands	aantal verschillende merken

De packages readr, dplyr, corrplot en ggplot2 zijn geïnstalleerd en geladen.

Deze oefening maakt deel uit van de cursus

Machine Learning for Marketing Analytics in R

Bekijk cursus

Oefeninstructies

Gebruik het structuurcommando str() om een overzicht van de data te krijgen.
Visualiseer nu de correlatie van de continue verklarende variabelen voor de afgelopen drie maanden met de verkoopvariabele van deze maand. Gebruik de functies cor() en corrplot() en de pipe-operator. Let op: de juiste variabelen zijn al voor je geselecteerd.
Maak daarnaast een boxplot die de verdeling van salesThisMon laat zien afhankelijk van de niveaus van de categorische variabele preferredBrand. Hetzelfde is al gedaan voor de categorische afhankelijke variabele mostFreqStore.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))

Code bewerken en uitvoeren