Gruppen von Mutanten

Zusätzlich zum Berechnen von gruppenweisen Zusammenfassungen kannst du Spalten mit gruppenspezifischen Werten verändern. Eine Technik zur Normalisierung ist zum Beispiel, vom Wert den Mittelwert abzuziehen und anschließend durch die Standardabweichung zu teilen. Eine gruppenspezifische Normalisierung könntest du mit folgendem Code durchführen.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark mit sparklyr in R</Kurs>

Kurs ansehen

Übungsanweisungen

Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.

Gruppiere den Inhalt von track_metadata nach artist_name.
Füge eine neue Spalte mit dem Namen time_since_first_release hinzu.
- Setze diese gleich der gruppenweisen year minus der ersten year (also der min() year), in der der Artist einen Track veröffentlicht hat.
Sortiere die Zeilen in absteigender Reihenfolge von time_since_first_release.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Group by artist
  ___ %>%
  # Calc time since first release
  ___ %>%
  # Arrange by descending time since first release
  ___

Code bearbeiten und ausführen