ComenzarEmpieza gratis

Anti joins

En el ejercicio anterior, el conjunto de datos unido no era tan grande como cabría esperar, ya que no todos los artistas tenían etiquetas asociadas. Los anti joins son muy útiles para detectar problemas en otros joins.

Un anti join devuelve las filas de la primera tabla para las que no puede encontrar coincidencia en la segunda. El principio se muestra en este diagrama.

An anti join, explained using table of colors.

Los anti joins son un tipo de filtering join, ya que devuelven el contenido de la primera tabla, pero con sus filas filtradas según las condiciones de coincidencia.

La sintaxis de un anti join es más o menos la misma que la de un left join: simplemente sustituye left_join() por anti_join().

anti_join(a_tibble, another_tibble, by = c("id_col1", "id_col2"))

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark como spark_conn. Los tibbles asociados a los metadatos de pistas y a los términos de artista almacenados en Spark se han predefinido como track_metadata_tbl y artist_terms_tbl, respectivamente.

  • Usa un anti join para unir los términos de artista con los metadatos de pistas por la columna artist_id. Asigna el resultado a joined.
  • Usa sdf_dim() para determinar cuántas filas y columnas tiene la tabla unida.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl and artist_terms_tbl have been pre-defined
track_metadata_tbl
artist_terms_tbl

# Anti join artist terms to track metadata by artist_id
joined <- ___

# How many rows and columns are in the joined table?
___
Editar y ejecutar código