Wybieranie kolumn

Najwygodniejszy sposób manipulowania ramkami danych przechowywanymi w Sparku to składnia dplyr. Szczegółowo omawiają ją kursy Data Manipulation with dplyr oraz Joining Data with dplyr, ale przez następny rozdział i połowę kolejnego samodzielnie przejdziemy przez wszystkie najważniejsze zagadnienia.

dplyr oferuje pięć podstawowych operacji na ramkach danych: wybieranie kolumn, filtrowanie wierszy, porządkowanie wierszy, modyfikowanie lub dodawanie kolumn oraz obliczanie statystyk podsumowujących.

Zacznijmy od wybierania kolumn. Służy do tego funkcja select(), której przekazujesz tibble, a następnie nazwy kolumn do zachowania – bez cudzysłowów. Funkcje dplyr są standardowo stosowane z operatorem pipe %>% z pakietu magrittr. Aby wybrać kolumny x, y i z, napisz:

a_tibble %>%
  select(x, y, z)

Zwróć uwagę, że indeksowanie za pomocą nawiasów kwadratowych nie jest obecnie obsługiwane w sparklyr. Oznacza to, że poniższy zapis nie zadziała:

a_tibble[, c("x", "y", "z")]

Połączenie ze Sparkiem zostało już dla ciebie utworzone jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Sparku jest wstępnie zdefiniowany jako track_metadata_tbl.

Wybierz kolumny artist_name, release, title i year za pomocą select().
Spróbuj zrobić to samo, używając indeksowania nawiasami kwadratowymi. Uwaga – ten kod spowoduje błąd, dlatego jest opakowany w wywołanie tryCatch().

ćwiczenie

Wybieranie kolumn

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie