Grupowe mutacje

Funkcja group_by() przydaje się nie tylko do obliczania statystyk podsumowujących – możesz jej też używać do tworzenia nowych kolumn z wartościami zależnymi od grupy. Na przykład jedną z technik normalizacji danych jest odjęcie średniej i podzielenie przez odchylenie standardowe. Normalizację na poziomie grupy możesz wykonać za pomocą poniższego kodu.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Połączenie ze Spark zostało już utworzone jako spark_conn. Tabela tibble powiązana z metadanymi utworów zapisanymi w Spark jest wstępnie zdefiniowana jako track_metadata_tbl.

Pogrupuj zawartość track_metadata według artist_name.
Dodaj nową kolumnę o nazwie time_since_first_release.
- Ustaw jej wartość jako różnicę między year w danej grupie a pierwszym rokiem wydania utworu przez artystę, czyli min() z kolumny year.
Posortuj wiersze w malejącej kolejności według time_since_first_release.

ćwiczenie

Grupowe mutacje

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie