Daten ansehen

Der Datensatz salesData ist im Workspace geladen. Er enthält Informationen zu Kundinnen und Kunden für die Monate eins bis drei. Nur die Verkäufe des vierten Monats sind enthalten. Die folgende Tabelle beschreibt einige Variablen, deren Bedeutung weniger offensichtlich ist.

Variable	Beschreibung
id	Identifikationsnummer der Kundin/des Kunden
mostFreqStore	Geschäft, in dem am häufigsten gekauft wurde
mostFreqCat	Kategorie, aus der am häufigsten gekauft wurde
nCats	Anzahl unterschiedlicher Kategorien
preferredBrand	Marke, die überwiegend gekauft wurde
nBrands	Anzahl unterschiedlicher Marken

Die Pakete readr, dplyr, corrplot und ggplot2 sind installiert und geladen.

Diese Übung ist Teil des Kurses

Machine Learning für Marketing-Analytics in R

Kurs anzeigen

Anleitung zur Übung

Verwende den Strukturbefehl str(), um dir einen Überblick über die Daten zu verschaffen.
Visualisiere nun die Korrelation der kontinuierlichen erklärenden Variablen der vergangenen drei Monate mit der Verkaufsvariable dieses Monats. Nutze die Funktionen cor() und corrplot() sowie den Pipe-Operator. Beachte, dass die passenden Variablen bereits für dich ausgewählt wurden.
Erstelle zusätzlich ein Boxplot, das die Verteilung von salesThisMon in Abhängigkeit von den Ausprägungen der kategorialen Variable preferredBrand zeigt. Dasselbe wurde bereits für die kategoriale abhängige Variable mostFreqStore gemacht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))

Code bearbeiten und ausführen