Modificar columnas
Puede que te sorprenda, pero ¡no todos los conjuntos de datos empiezan perfectamente limpios! A menudo tendrás que corregir valores o crear columnas nuevas a partir de tus datos existentes. En la terminología de dplyr, el proceso de cambiar o añadir columnas se llama mutación y se realiza con mutate(). Esta función recibe un tibble y argumentos con nombre para actualizar columnas. El nombre de cada argumento es el nombre de la columna que quieres cambiar o añadir, y el valor es una expresión que explica cómo actualizarla. Por ejemplo, dado un tibble con columnas x e y, el siguiente código actualizaría x y crearía una nueva columna z.
a_tibble %>%
mutate(
x = x + y,
z = log(x)
)
Por si no había quedado claro que las funciones de base R no funcionan con tibbles de Spark, no puedes usar within() ni transform() para este propósito.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Ya tienes creada una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.
- Selecciona los campos
titleyduration. Ten en cuenta que las duraciones están en segundos. - Encadena el resultado a
mutate()para crear un campo nuevo,duration_minutes, que contenga la duración de la pista en minutos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___