Spalten zusammenfassen
Die Funktion mutate(), die du in der vorherigen Übung gesehen hast, nimmt Spalten als Eingaben und gibt eine Spalte zurück. Wenn du Übersichtsstatistiken wie Mittelwert, Maximum oder Standardabweichung berechnest, möchtest du typischerweise Spalten als Eingaben nehmen, aber einen einzelnen Wert zurückgeben. Das erreichst du mit der Funktion summarize().
a_tibble %>%
summarize(
mean_x = mean(x),
sd_x_times_y = sd(x * y)
)
Beachte, dass dplyr die Philosophie (die an sparklyr weitergegeben wurde) verfolgt, Daten stets in Tibbles zu halten. Der Rückgabewert ist hier also ein Tibble mit einer Zeile und einer Spalte für jede berechnete Übersichtsstatistik.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.
- Selektiere die Felder
titleundduration. - Pipe das Ergebnis weiter, um ein neues Feld
duration_minuteszu erstellen, das die Track-Dauer in Minuten enthält. - Pipe das Ergebnis weiter zu
summarize(), um die durchschnittliche Dauer in Minuten in einem Feld namensmean_duration_minuteszu berechnen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___ %>%
# Summarize columns
___