Dimensionalität und Merkmalsinformation
Stell dir vor, du arbeitest bei einer Bank und hast Informationen über verschiedene Kredite an unterschiedliche Personen gesammelt. Deine Chefin möchte, dass du prüfst, ob sich diese Daten nutzen lassen, um Kundinnen und Kunden in verschiedene Bonitätskategorien einzuteilen. Eine Stichprobe der verfügbaren Daten ist in credit_df geladen. Du möchtest wissen, wie viele Merkmale die Daten haben. Außerdem willst du Merkmale finden, die für die Einteilung in Bonitätskategorien nicht hilfreich sind.
Das Paket tidyverse wurde für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Ermittle die Anzahl der Merkmale in
credit_df. - Berechne die Varianz jedes Merkmals in
credit_df. - Identifiziere das Merkmal mit Varianz gleich null und weise es
column_to_removezu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Find the number of features
___ %>% ___()
# Compute each column variance
credit_df %>%
___(___(___(), ~ ___(., na.rm = TRUE))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "variance")
# Assign the zero-variance column
column_to_remove <- "___"