ComenzarEmpieza gratis

Modificar columnas

Puede que te sorprenda, pero ¡no todos los conjuntos de datos empiezan perfectamente limpios! A menudo tendrás que corregir valores o crear columnas nuevas a partir de tus datos existentes. En la terminología de dplyr, el proceso de cambiar o añadir columnas se llama mutación y se realiza con mutate(). Esta función recibe un tibble y argumentos con nombre para actualizar columnas. El nombre de cada argumento es el nombre de la columna que quieres cambiar o añadir, y el valor es una expresión que explica cómo actualizarla. Por ejemplo, dado un tibble con columnas x e y, el siguiente código actualizaría x y crearía una nueva columna z.

a_tibble %>%
  mutate(
    x = x + y,
    z = log(x)  
  )

Por si no había quedado claro que las funciones de base R no funcionan con tibbles de Spark, no puedes usar within() ni transform() para este propósito.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.

  • Selecciona los campos title y duration. Ten en cuenta que las duraciones están en segundos.
  • Encadena el resultado a mutate() para crear un campo nuevo, duration_minutes, que contenga la duración de la pista en minutos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___
Editar y ejecutar código