Gruppen von Mutanten
Zusätzlich zum Berechnen von gruppenweisen Zusammenfassungen kannst du Spalten mit gruppenspezifischen Werten verändern. Eine Technik zur Normalisierung ist zum Beispiel, vom Wert den Mittelwert abzuziehen und anschließend durch die Standardabweichung zu teilen. Eine gruppenspezifische Normalisierung könntest du mit folgendem Code durchführen.
a_tibble %>%
group_by(grp1, grp2) %>%
mutate(normalized_x = (x - mean(x)) / sd(x))
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Ein Tibble, das mit den in Spark gespeicherten Track-Metadaten verknüpft ist, wurde als track_metadata_tbl vordefiniert.
- Gruppiere den Inhalt von
track_metadatanachartist_name. - Füge eine neue Spalte mit dem Namen
time_since_first_releasehinzu.- Setze diese gleich der gruppenweisen
yearminus der erstenyear(also dermin()year), in der der Artist einen Track veröffentlicht hat.
- Setze diese gleich der gruppenweisen
- Sortiere die Zeilen in absteigender Reihenfolge von
time_since_first_release.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Group by artist
___ %>%
# Calc time since first release
___ %>%
# Arrange by descending time since first release
___