Spalten verändern (mutate)
Es mag dich überraschen, aber nicht alle Datensätze sind von Anfang an perfekt aufbereitet! Oft musst du Werte bereinigen oder neue Spalten erzeugen, die aus vorhandenen Daten abgeleitet sind. Das Ändern oder Hinzufügen von Spalten heißt in der dplyr-Terminologie Mutation und erfolgt mit mutate(). Diese Funktion nimmt ein Tibble und benannte Argumente zum Aktualisieren von Spalten. Die Namen der Argumente sind die Namen der Spalten, die geändert oder hinzugefügt werden, und der Wert ist ein Ausdruck, der beschreibt, wie aktualisiert wird. Beispiel: Für ein Tibble mit den Spalten x und y würde der folgende Code x aktualisieren und eine neue Spalte z erzeugen.
a_tibble %>%
mutate(
x = x + y,
z = log(x)
)
Falls es noch nicht deutlich wurde: Base-R-Funktionen funktionieren nicht mit Spark-Tibbles. Du kannst within() oder transform() hierfür nicht verwenden.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde als spark_conn für dich erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.
- Wähle die Felder
titleunddurationaus. Beachte, dass die Dauer in Sekunden angegeben ist. - Leite das Ergebnis per Pipe an
mutate()weiter, um ein neues Feldduration_minuteszu erzeugen, das die Track-Dauer in Minuten enthält.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___