Resumir columnas
La función mutate() que viste en el ejercicio anterior toma columnas como entrada y devuelve una columna. Si calculas estadísticas resumen como la media, el máximo o la desviación estándar, normalmente quieres tomar columnas como entrada pero devolver un único valor. Esto se consigue con la función summarize().
a_tibble %>%
summarize(
mean_x = mean(x),
sd_x_times_y = sd(x * y)
)
Ten en cuenta que dplyr tiene una filosofía (que hereda sparklyr) de mantener siempre los datos en tibbles. Así que el valor devuelto aquí es un tibble con una fila y una columna por cada estadística resumen calculada.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Ya tienes creada una conexión a Spark como spark_conn. También se ha predefinido un tibble vinculado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.
- Selecciona los campos
titleyduration. - Encadena el resultado para crear un nuevo campo,
duration_minutes, que contenga la duración de la pista en minutos. - Encadena el resultado a
summarize()para calcular la duración media en minutos, en un campo llamadomean_duration_minutes.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___ %>%
# Summarize columns
___