Merkmale mit gegenseitiger Information
Der Data Frame credit_df enthält mehrere kontinuierliche Merkmale. Wenn zwei kontinuierliche Merkmale korreliert sind, enthalten sie dieselbe Information — das nennt man gegenseitige Information. Stark korrelierte Merkmale sind nicht nur redundant, sondern können auch Probleme beim Modellieren verursachen. In der Regression können stark korrelierte Merkmale (d. h. Multikollinearität) zum Beispiel unsinnige Ergebnisse liefern. Um ein Gefühl für gegenseitige Information zu bekommen, erstellst du ein Korrelationsdiagramm, um Merkmale mit gegenseitiger Information zu identifizieren.
Die Pakete tidyverse und corrr wurden für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Verwende
correlate()undrplot(), um ein Korrelationsdiagramm der numerischen Merkmale voncredit_dfzu erstellen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a correlation plot
___ %>%
select(where(is.numeric)) %>%
___() %>%
shave() %>%
___(print_cor = TRUE) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))