Anzahl der Stufen untersuchen
dplyr hat zwei weitere Funktionen, die beim Erkunden eines Datensatzes nützlich sind. Die erste ist slice_max(var, n = x), die dir die ersten x Zeilen eines Datensatzes basierend auf dem Wert von var liefert. Die andere ist pull(), mit der du eine Spalte extrahieren und den Spaltennamen entfernen kannst, sodass nur die Werte der Spalte übrig bleiben.
Wenn wir zum Beispiel aus dem klassischen mtcars-Datensatz die beiden höchsten mpg-Werte als Werte-Menge erhalten möchten, würden wir schreiben:
mtcars %>%
slice_max(mpg, n = 2) %>%
pull(mpg)
Das ergibt:
[1] 32.4 33.9
Diese Übung ist Teil des Kurses
Kategorische Daten im Tidyverse
Anleitung zur Übung
- Verwende
slice_max(), um die 3 Zeilen mit der höchsten Anzahl an Faktorstufen auszugeben. - Filtere nach der Variablen
CurrentJobTitleSelectund verwendepull, um die Anzahl ihrer Stufen zu erhalten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Select the 3 rows with the highest number of levels
number_of_levels %>%
___(num_levels, n = 3)
number_of_levels %>%
# Filter for where the column called variable equals CurrentJobTitleSelect
filter(___) %>%
# Pull num_levels
___