1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Podsumowywanie kolumn

Funkcja mutate(), którą poznałeś w poprzednim ćwiczeniu, przyjmuje kolumny jako dane wejściowe i zwraca kolumnę. Jeśli chcesz obliczyć statystyki podsumowujące – takie jak średnia, maksimum czy odchylenie standardowe – zwykle potrzebujesz funkcji, która przyjmuje kolumny, ale zwraca pojedynczą wartość. Służy do tego funkcja summarize().

a_tibble %>%
  summarize(
    mean_x       = mean(x),
    sd_x_times_y = sd(x * y)
  )

Zwróć uwagę, że dplyr (a za nim sparklyr) zawsze przechowuje dane w tibblesach. Dlatego wynikiem działania tej funkcji jest tibble z jednym wierszem i jedną kolumną dla każdej obliczonej statystyki podsumowującej.

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już dla ciebie utworzone jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Sparku jest wstępnie zdefiniowany jako track_metadata_tbl.

  • Wybierz pola title i duration.
  • Przekaż wynik potokiem, aby utworzyć nowe pole duration_minutes zawierające czas trwania utworu w minutach.
  • Przekaż wynik potokiem do funkcji summarize(), aby obliczyć średni czas trwania w minutach i zapisać go w polu mean_duration_minutes.