Spalten auswählen

Der einfachste Weg, in Spark gespeicherte Data Frames zu manipulieren, ist die Verwendung der dplyr-Syntax. Die Manipulation von Data Frames mit der dplyr-Syntax wird ausführlich in den Kursen Data Manipulation with dplyr und Joining Data with dplyr behandelt, aber du wirst im nächsten Kapitel und darüber hinaus alle wichtigen Punkte durchgehen.

dplyr bietet fünf Hauptaktionen, die du auf einem Data Frame ausführen kannst. Du kannst Spalten auswählen, Zeilen filtern, die Reihenfolge der Zeilen anordnen, Spalten ändern oder neue hinzufügen und zusammenfassende Statistiken berechnen.

Starten wir mit dem Auswählen von Spalten. Das geschieht mit einem Aufruf von select() auf einem Tibble, gefolgt von den unzitierten Namen der Spalten, die du behalten möchtest. dplyr-Funktionen werden konventionell mit dem Pipe-Operator von magrittr, %>%, verwendet. Um die Spalten x, y und z auszuwählen, würdest du Folgendes schreiben.

a_tibble %>%
  select(x, y, z)

Beachte, dass Indexierung mit eckigen Klammern in sparklyr derzeit nicht unterstützt wird. Du kannst also nicht Folgendes tun:

a_tibble[, c("x", "y", "z")]

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde für dich als spark_conn erstellt. Ein Tibble mit den in Spark gespeicherten Track-Metadaten wurde als track_metadata_tbl vordefiniert.

Wähle artist_name, release, title und year mit select() aus.
Versuche dasselbe mit der Indexierung über eckige Klammern. Spoiler! Dieser Code löst einen Fehler aus und ist daher in einen Aufruf von tryCatch() eingebettet.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___

# Try to select columns using [ ]
tryCatch({
    # Selection code here
    ___
  },
  error = print
)

Code bearbeiten und ausführen