Spalten auswählen
Der einfachste Weg, in Spark gespeicherte Data Frames zu manipulieren, ist die Verwendung der dplyr-Syntax. Die Manipulation von Data Frames mit der dplyr-Syntax wird ausführlich in den Kursen Data Manipulation with dplyr und Joining Data with dplyr behandelt, aber du wirst im nächsten Kapitel und darüber hinaus alle wichtigen Punkte durchgehen.
dplyr bietet fünf Hauptaktionen, die du auf einem Data Frame ausführen kannst. Du kannst Spalten auswählen, Zeilen filtern, die Reihenfolge der Zeilen anordnen, Spalten ändern oder neue hinzufügen und zusammenfassende Statistiken berechnen.
Starten wir mit dem Auswählen von Spalten. Das geschieht mit einem Aufruf von select() auf einem Tibble, gefolgt von den unzitierten Namen der Spalten, die du behalten möchtest. dplyr-Funktionen werden konventionell mit dem Pipe-Operator von magrittr, %>%, verwendet. Um die Spalten x, y und z auszuwählen, würdest du Folgendes schreiben.
a_tibble %>%
select(x, y, z)
Beachte, dass Indexierung mit eckigen Klammern in sparklyr derzeit nicht unterstützt wird. Du kannst also nicht Folgendes tun:
a_tibble[, c("x", "y", "z")]
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Ein Tibble mit den in Spark gespeicherten Track-Metadaten wurde als track_metadata_tbl vordefiniert.
- Wähle
artist_name,release,titleundyearmitselect()aus. - Versuche dasselbe mit der Indexierung über eckige Klammern. Spoiler! Dieser Code löst einen Fehler aus und ist daher in einen Aufruf von
tryCatch()eingebettet.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___
# Try to select columns using [ ]
tryCatch({
# Selection code here
___
},
error = print
)