Grupos de mutantes
Además de calcular estadísticas de resumen por grupo, puedes transformar columnas con valores específicos por grupo. Por ejemplo, una técnica para normalizar valores es restar la media y luego dividir entre la desviación estándar. Podrías realizar una normalización por grupo con el siguiente código.
a_tibble %>%
group_by(grp1, grp2) %>%
mutate(normalized_x = (x - mean(x)) / sd(x))
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Se ha creado una conexión Spark llamada spark_conn. También se ha predefinido como track_metadata_tbl un tibble asociado a los metadatos de las pistas almacenados en Spark.
- Agrupa el contenido de
track_metadataporartist_name. - Añade una columna nueva llamada
time_since_first_release.- Haz que sea igual al
yearpor grupo menos el primeryear(es decir, elmin()deyear) en el que el artista publicó una pista.
- Haz que sea igual al
- Ordena las filas en orden descendente de
time_since_first_release.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Group by artist
___ %>%
# Calc time since first release
___ %>%
# Arrange by descending time since first release
___