Grupos de mutantes

Además de calcular estadísticas de resumen por grupo, puedes transformar columnas con valores específicos por grupo. Por ejemplo, una técnica para normalizar valores es restar la media y luego dividir entre la desviación estándar. Podrías realizar una normalización por grupo con el siguiente código.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión Spark llamada spark_conn. También se ha predefinido como track_metadata_tbl un tibble asociado a los metadatos de las pistas almacenados en Spark.

Agrupa el contenido de track_metadata por artist_name.
Añade una columna nueva llamada time_since_first_release.
- Haz que sea igual al year por grupo menos el primer year (es decir, el min() de year) en el que el artista publicó una pista.
Ordena las filas en orden descendente de time_since_first_release.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Group by artist
  ___ %>%
  # Calc time since first release
  ___ %>%
  # Arrange by descending time since first release
  ___

Editar y ejecutar código