1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Modyfikowanie kolumn

Możliwe, że cię to zaskoczy, ale nie każdy zbiór danych od razu jest idealnie przygotowany! Często trzeba poprawić wartości lub stworzyć nowe kolumny na podstawie już istniejących danych. Proces zmiany lub dodawania kolumn nazywa się w terminologii dplyr mutacją i wykonuje się go za pomocą funkcji mutate(). Funkcja ta przyjmuje tibble oraz nazwane argumenty służące do aktualizacji kolumn. Nazwa każdego argumentu odpowiada nazwie kolumny, którą chcesz zmienić lub dodać, a jej wartość to wyrażenie określające sposób aktualizacji. Na przykład dla tibble z kolumnami x i y poniższy kod zaktualizuje x i utworzy nową kolumnę z.

a_tibble %>%
  mutate(
    x = x + y,
    z = log(x)  
  )

Na wypadek gdyby nie było to jeszcze jasne – funkcje bazowego R nie działają ze Spark tibbles. Nie możesz tu użyć ani within(), ani transform().

Instrukcje

100 XP

Połączenie ze Spark zostało już utworzone i jest dostępne jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Spark jest wstępnie zdefiniowany jako track_metadata_tbl.

  • Wybierz pola title i duration. Zwróć uwagę, że czas trwania podany jest w sekundach.
  • Przekaż wynik do funkcji mutate(), aby utworzyć nowe pole duration_minutes zawierające czas trwania utworu w minutach.