Naar data kijken
De gegevensset salesData is geladen in de werkruimte. Deze bevat informatie over klanten voor de maanden één tot en met drie. Alleen de verkoop van maand vier is opgenomen. De volgende tabel beschrijft enkele variabelen waarvan de betekenis minder voor de hand ligt.
| Variable | Description |
|---|---|
| id | identificatienummer van klant |
| mostFreqStore | winkel waar de persoon het meest kocht |
| mostFreqCat | categorie die de persoon het meest kocht |
| nCats | aantal verschillende categorieën |
| preferredBrand | merk dat de persoon het meest kocht |
| nBrands | aantal verschillende merken |
De packages readr, dplyr, corrplot en ggplot2 zijn geïnstalleerd en geladen.
Deze oefening maakt deel uit van de cursus
Machine Learning for Marketing Analytics in R
Oefeninstructies
- Gebruik het structuurcommando
str()om een overzicht van de data te krijgen. - Visualiseer nu de correlatie van de continue verklarende variabelen voor de afgelopen drie maanden met de verkoopvariabele van deze maand. Gebruik de functies
cor()encorrplot()en de pipe-operator. Let op: de juiste variabelen zijn al voor je geselecteerd. - Maak daarnaast een boxplot die de verdeling van
salesThisMonlaat zien afhankelijk van de niveaus van de categorische variabelepreferredBrand. Hetzelfde is al gedaan voor de categorische afhankelijke variabelemostFreqStore.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Structure of dataset
str(___, give.attr = FALSE)
# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
select(-id) %>%
___
___
# Frequent stores
ggplot(salesData) +
geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))
# Preferred brand
ggplot(___) +
geom_boxplot(aes(x = ___, y = ___))