1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Wybieranie unikalnych wierszy

Jeśli masz zmienną kategoryczną przechowywaną w czynniku (factor), często warto wiedzieć, jakie są poszczególne kategorie – służy do tego funkcja levels(). W przypadku tibble bardziej ogólnym podejściem jest wyszukiwanie wierszy z unikalnymi danymi. Zgodnie z terminologią SQL robi się to za pomocą funkcji distinct(). Możesz użyć jej bezpośrednio na swoim zbiorze danych, aby znaleźć unikalne kombinacje wartości w określonym zestawie kolumn. Na przykład, aby znaleźć unikalne kombinacje wartości w kolumnach x, y i z, napisz poniższy kod.

a_tibble %>%
  distinct(x, y, z)

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już utworzone jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Sparku jest predefiniowany jako track_metadata_tbl.

  • Znajdź unikalne wartości kolumny artist_name z track_metadata_tbl.