Stufen entfernen
Die Kreuztabelle aus der letzten Übung hat gezeigt, dass es einige Stufen mit sehr niedrigen Häufigkeiten gibt. Um die Analyse zu vereinfachen, hilft es oft, solche Stufen zu entfernen.
In R sind dafür zwei Schritte nötig: Zuerst filterst du alle Zeilen mit den Stufen heraus, die sehr niedrige Häufigkeiten haben, und entfernst anschließend diese Stufen aus der Faktor-Variablen mit droplevels(). Das liegt daran, dass droplevels() Stufen mit nur 1 oder 2 Vorkommen beibehält; es entfernt nur Stufen, die im Datensatz gar nicht vorkommen.
Diese Übung ist Teil des Kurses
Explorative Datenanalyse in R
Anleitung zur Übung
Die Kreuztabelle aus der letzten Übung steht dir in deinem Workspace als tab zur Verfügung.
- Lade das Paket
dplyr. - Gib
tabaus, um herauszufinden, welche Stufe vonaligninsgesamt die wenigsten Einträge hat. - Verwende
filter(), um alle Zeilen voncomicsmit dieser Stufe herauszufiltern, und entferne anschließend die ungenutzte Stufe mitdroplevels(). Speichere den vereinfachten Datensatz alscomics_filtered.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load dplyr
___
# Print tab
___
# Remove align level
comics_filtered <- ___ %>%
___(align != ___) %>%
___()
# See the result
comics_filtered