1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Wybieranie kolumn

Najwygodniejszy sposób manipulowania ramkami danych przechowywanymi w Sparku to składnia dplyr. Szczegółowo omawiają ją kursy Data Manipulation with dplyr oraz Joining Data with dplyr, ale przez następny rozdział i połowę kolejnego samodzielnie przejdziemy przez wszystkie najważniejsze zagadnienia.

dplyr oferuje pięć podstawowych operacji na ramkach danych: wybieranie kolumn, filtrowanie wierszy, porządkowanie wierszy, modyfikowanie lub dodawanie kolumn oraz obliczanie statystyk podsumowujących.

Zacznijmy od wybierania kolumn. Służy do tego funkcja select(), której przekazujesz tibble, a następnie nazwy kolumn do zachowania – bez cudzysłowów. Funkcje dplyr są standardowo stosowane z operatorem pipe %>% z pakietu magrittr. Aby wybrać kolumny x, y i z, napisz:

a_tibble %>%
  select(x, y, z)

Zwróć uwagę, że indeksowanie za pomocą nawiasów kwadratowych nie jest obecnie obsługiwane w sparklyr. Oznacza to, że poniższy zapis nie zadziała:

a_tibble[, c("x", "y", "z")]

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już dla ciebie utworzone jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Sparku jest wstępnie zdefiniowany jako track_metadata_tbl.

  • Wybierz kolumny artist_name, release, title i year za pomocą select().
  • Spróbuj zrobić to samo, używając indeksowania nawiasami kwadratowymi. Uwaga – ten kod spowoduje błąd, dlatego jest opakowany w wywołanie tryCatch().