LoslegenKostenlos loslegen

Daten ansehen

Der Datensatz salesData ist im Workspace geladen. Er enthält Informationen zu Kundinnen und Kunden für die Monate eins bis drei. Nur die Verkäufe des vierten Monats sind enthalten. Die folgende Tabelle beschreibt einige Variablen, deren Bedeutung weniger offensichtlich ist.

Variable Beschreibung
id Identifikationsnummer der Kundin/des Kunden
mostFreqStore Geschäft, in dem am häufigsten gekauft wurde
mostFreqCat Kategorie, aus der am häufigsten gekauft wurde
nCats Anzahl unterschiedlicher Kategorien
preferredBrand Marke, die überwiegend gekauft wurde
nBrands Anzahl unterschiedlicher Marken

Die Pakete readr, dplyr, corrplot und ggplot2 sind installiert und geladen.

Diese Übung ist Teil des Kurses

Machine Learning für Marketing-Analytics in R

Kurs anzeigen

Anleitung zur Übung

  • Verwende den Strukturbefehl str(), um dir einen Überblick über die Daten zu verschaffen.
  • Visualisiere nun die Korrelation der kontinuierlichen erklärenden Variablen der vergangenen drei Monate mit der Verkaufsvariable dieses Monats. Nutze die Funktionen cor() und corrplot() sowie den Pipe-Operator. Beachte, dass die passenden Variablen bereits für dich ausgewählt wurden.
  • Erstelle zusätzlich ein Boxplot, das die Verteilung von salesThisMon in Abhängigkeit von den Ausprägungen der kategorialen Variable preferredBrand zeigt. Dasselbe wurde bereits für die kategoriale abhängige Variable mostFreqStore gemacht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Structure of dataset
str(___, give.attr = FALSE)

# Visualization of correlations
salesData %>% select_if(is.numeric) %>%
  select(-id) %>%
  ___
  ___

# Frequent stores
ggplot(salesData) +
    geom_boxplot(aes(x = mostFreqStore, y = salesThisMon))

# Preferred brand
ggplot(___) +
    geom_boxplot(aes(x = ___, y = ___))
Code bearbeiten und ausführen