Seleccionar filas únicas

Si tienes una variable categórica almacenada en un factor, a menudo es útil saber cuáles son las categorías; para ello se usa la función levels(). En un tibble, el concepto más general es encontrar filas con datos únicos. Siguiendo la terminología de SQL, esto se hace con la función distinct(). Puedes usarla directamente sobre tu conjunto de datos para encontrar combinaciones únicas de un conjunto concreto de columnas. Por ejemplo, para encontrar las combinaciones únicas de valores en las columnas x, y y z, escribirías lo siguiente.

a_tibble %>%
  distinct(x, y, z)

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.

Encuentra los valores distintos de la columna artist_name de track_metadata_tbl.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___

Editar y ejecutar código