Resumir columnas

La función mutate() que viste en el ejercicio anterior toma columnas como entrada y devuelve una columna. Si calculas estadísticas resumen como la media, el máximo o la desviación estándar, normalmente quieres tomar columnas como entrada pero devolver un único valor. Esto se consigue con la función summarize().

a_tibble %>%
  summarize(
    mean_x       = mean(x),
    sd_x_times_y = sd(x * y)
  )

Ten en cuenta que dplyr tiene una filosofía (que hereda sparklyr) de mantener siempre los datos en tibbles. Así que el valor devuelto aquí es un tibble con una fila y una columna por cada estadística resumen calculada.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark como spark_conn. También se ha predefinido un tibble vinculado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.

Selecciona los campos title y duration.
Encadena el resultado para crear un nuevo campo, duration_minutes, que contenga la duración de la pista en minutos.
Encadena el resultado a summarize() para calcular la duración media en minutos, en un campo llamado mean_duration_minutes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___ %>%
  # Summarize columns
  ___

Editar y ejecutar código