1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Grupowe mutacje

Funkcja group_by() przydaje się nie tylko do obliczania statystyk podsumowujących – możesz jej też używać do tworzenia nowych kolumn z wartościami zależnymi od grupy. Na przykład jedną z technik normalizacji danych jest odjęcie średniej i podzielenie przez odchylenie standardowe. Normalizację na poziomie grupy możesz wykonać za pomocą poniższego kodu.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Instrukcje

100 XP

Połączenie ze Spark zostało już utworzone jako spark_conn. Tabela tibble powiązana z metadanymi utworów zapisanymi w Spark jest wstępnie zdefiniowana jako track_metadata_tbl.

  • Pogrupuj zawartość track_metadata według artist_name.
  • Dodaj nową kolumnę o nazwie time_since_first_release.
    • Ustaw jej wartość jako różnicę między year w danej grupie a pierwszym rokiem wydania utworu przez artystę, czyli min() z kolumny year.
  • Posortuj wiersze w malejącej kolejności według time_since_first_release.