ComenzarEmpieza gratis

Seleccionar columnas

La forma más sencilla de manipular data frames almacenados en Spark es usando la sintaxis de dplyr. La manipulación de data frames con la sintaxis de dplyr se trata en detalle en los cursos Data Manipulation with dplyr y Joining Data with dplyr, pero en el próximo capítulo y medio verás todos los puntos importantes.

dplyr ofrece cinco acciones principales que puedes realizar sobre un data frame: seleccionar columnas, filtrar filas, ordenar filas, modificar columnas o añadir columnas nuevas, y calcular estadísticas resumidas.

Empecemos por seleccionar columnas. Esto se hace llamando a select(), con un tibble, seguido de los nombres sin comillas de las columnas que quieres conservar. Las funciones de dplyr se usan habitualmente con el operador pipe de magrittr, %>%. Para seleccionar las columnas x, y y z, escribirías lo siguiente.

a_tibble %>%
  select(x, y, z)

Ten en cuenta que el indexado con corchetes no está actualmente soportado en sparklyr. Así que no puedes hacer

a_tibble[, c("x", "y", "z")]

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión de Spark como spark_conn. También se ha predefinido un tibble con los metadatos de pistas almacenados en Spark como track_metadata_tbl.

  • Selecciona artist_name, release, title y year usando select().
  • Intenta hacer lo mismo usando indexado con corchetes. ¡Alerta de spoiler! Este código lanza un error, por eso está envuelto en una llamada a tryCatch().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___

# Try to select columns using [ ]
tryCatch({
    # Selection code here
    ___
  },
  error = print
)
Editar y ejecutar código