Zeilen anordnen
Als Musik noch auf CDs gespeichert wurde, gab es ein ewiges Problem: Wie ordnest du deine CDs am besten, damit du schnell findest, was du suchst? Nach Künstlernamen? Chronologisch? Nach Genre?
Die Funktion arrange() erlaubt dir, die Zeilen eines Tibbles neu zu sortieren. Sie erhält ein Tibble, gefolgt von den unzitierten Spaltennamen. Möchtest du zum Beispiel aufsteigend nach den Werten der Spalte x sortieren und bei Gleichstand in x absteigend nach den Werten von y, würdest du Folgendes schreiben.
a_tibble %>%
arrange(x, desc(y))
Beachte die Verwendung von desc(), um eine absteigende Sortierung zu erzwingen. Beachte außerdem, dass in sparklyr die Funktion order(), die zum Anordnen der Zeilen von data.frames genutzt wird, nicht funktioniert.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.
- Wähle die Felder
artist_name,release,titleundyearaus. - Pipe das Ergebnis weiter, um nach Tracks aus den 1960er-Jahren zu filtern.
- Pipe das Ergebnis weiter zu
arrange(), um nachartist_name, dann absteigendyear, danntitlezu sortieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Filter rows
___ %>%
# Arrange rows
___