LoslegenKostenlos loslegen

Spalten zusammenfassen

Die Funktion mutate(), die du in der vorherigen Übung gesehen hast, nimmt Spalten als Eingaben und gibt eine Spalte zurück. Wenn du Übersichtsstatistiken wie Mittelwert, Maximum oder Standardabweichung berechnest, möchtest du typischerweise Spalten als Eingaben nehmen, aber einen einzelnen Wert zurückgeben. Das erreichst du mit der Funktion summarize().

a_tibble %>%
  summarize(
    mean_x       = mean(x),
    sd_x_times_y = sd(x * y)
  )

Beachte, dass dplyr die Philosophie (die an sparklyr weitergegeben wurde) verfolgt, Daten stets in Tibbles zu halten. Der Rückgabewert ist hier also ein Tibble mit einer Zeile und einer Spalte für jede berechnete Übersichtsstatistik.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.

  • Selektiere die Felder title und duration.
  • Pipe das Ergebnis weiter, um ein neues Feld duration_minutes zu erstellen, das die Track-Dauer in Minuten enthält.
  • Pipe das Ergebnis weiter zu summarize(), um die durchschnittliche Dauer in Minuten in einem Feld namens mean_duration_minutes zu berechnen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___ %>%
  # Summarize columns
  ___
Code bearbeiten und ausführen