Daten ansehen
Der Datensatz salesData ist im Workspace geladen. Er enthält Informationen zu Kundinnen und Kunden für die Monate eins bis drei. Nur die Verkäufe des vierten Monats sind enthalten. Die folgende Tabelle beschreibt einige Variablen, deren Bedeutung weniger offensichtlich ist.
| Variable | Beschreibung |
|---|---|
| id | Identifikationsnummer der Kundin/des Kunden |
| mostFreqStore | Geschäft, in dem am häufigsten gekauft wurde |
| mostFreqCat | Kategorie, aus der am häufigsten gekauft wurde |
| nCats | Anzahl unterschiedlicher Kategorien |
| preferredBrand | Marke, die überwiegend gekauft wurde |
| nBrands | Anzahl unterschiedlicher Marken |
Die Pakete readr, dplyr, corrplot und ggplot2 sind installiert und geladen.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing-Analytics in R
Anleitung zur Übung
- Verwende den Strukturbefehl
str(), um dir einen Überblick über die Daten zu verschaffen. - Visualisiere nun die Korrelation der kontinuierlichen erklärenden Variablen der vergangenen drei Monate mit der Verkaufsvariable dieses Monats. Nutze die Funktionen
cor()undcorrplot()sowie den Pipe-Operator. Beachte, dass die passenden Variablen bereits für dich ausgewählt wurden. - Erstelle zusätzlich ein Boxplot, das die Verteilung von
salesThisMonin Abhängigkeit von den Ausprägungen der kategorialen VariablepreferredBrandzeigt. Dasselbe wurde bereits für die kategoriale abhängige VariablemostFreqStoregemacht.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Structure of dataset
str(___, give.attr = FALSE)
# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
select(-id) %>%
___
___
# Frequent stores
ggplot(salesData) +
geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))
# Preferred brand
ggplot(___) +
geom_boxplot(aes(x = ___, y = ___))