1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Anti join

W poprzednim ćwiczeniu połączony zbiór danych okazał się mniejszy, niż można było się spodziewać – nie wszystkim artystom przypisano tagi. Anti join to bardzo przydatne narzędzie do wykrywania tego rodzaju problemów.

Anti join zwraca wiersze z pierwszej tabeli, dla których nie znaleziono dopasowania w drugiej tabeli. Zasadę działania ilustruje poniższy diagram.

An anti join, explained using table of colors.

Anti join należy do kategorii złączeń filtrujących – zwraca zawartość pierwszej tabeli, ale filtruje jej wiersze na podstawie warunków dopasowania.

Składnia anti join jest niemal identyczna jak dla left join: wystarczy zamienić left_join() na anti_join().

anti_join(a_tibble, another_tibble, by = c("id_col1", "id_col2"))

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już utworzone jako spark_conn. Tibble'y powiązane z metadanymi utworów i tagami artystów zapisanymi w Sparku są wstępnie zdefiniowane odpowiednio jako track_metadata_tbl i artist_terms_tbl.

  • Użyj anti join, aby połączyć tagi artystów z metadanymi utworów według kolumny artist_id. Wynik przypisz do zmiennej joined.
  • Użyj sdf_dim(), aby sprawdzić, ile wierszy i kolumn zawiera połączona tabela.