Seleccionar filas únicas
Si tienes una variable categórica almacenada en un factor, a menudo es útil saber cuáles son las categorías; para ello se usa la función levels(). En un tibble, el concepto más general es encontrar filas con datos únicos. Siguiendo la terminología de SQL, esto se hace con la función distinct(). Puedes usarla directamente sobre tu conjunto de datos para encontrar combinaciones únicas de un conjunto concreto de columnas. Por ejemplo, para encontrar las combinaciones únicas de valores en las columnas x, y y z, escribirías lo siguiente.
a_tibble %>%
distinct(x, y, z)
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Ya tienes creada una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.
- Encuentra los valores distintos de la columna
artist_namedetrack_metadata_tbl.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Only return rows with distinct artist_name
___