ComenzarEmpieza gratis

Filtrar filas

Además de seleccionar columnas, otra forma de extraer las partes importantes de tu conjunto de datos es filtrar las filas. Para ello se usa la función filter(). Para utilizar filter(), le pasas un tibble y algunas condiciones lógicas. Por ejemplo, para devolver solo las filas donde los valores de la columna x sean mayores que cero y, además, los valores de y sean iguales a los de z, usarías lo siguiente.

a_tibble %>%
  filter(x > 0, y == z)

Antes de intentar el ejercicio, ten en cuenta dos advertencias. Primero, no confundas la función filter() de dplyr con la función filter() del paquete stats. Segundo, sparklyr convierte tu código de dplyr en código SQL antes de pasarlo a Spark. Eso significa que actualmente solo se admite un número limitado de operaciones de filtrado. Por ejemplo, no puedes filtrar filas de caracteres usando expresiones regulares con código como

a_tibble %>%
  filter(grepl("a regex", x))

La página de ayuda de translate_sql() describe la funcionalidad disponible. Puedes usar operadores de comparación como >, != y %in%; operadores aritméticos como +, ^ y %%; y operadores lógicos como &, | y !. También se admiten muchas funciones matemáticas como log(), abs(), round() y sin().

Como antes, el indexado con corchetes no funciona actualmente.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya tienes creada una conexión a Spark como spark_conn. También se ha predefinido un tibble vinculado a los metadatos de las pistas almacenados en Spark como track_metadata_tbl.

  • Igual que en el ejercicio anterior, selecciona artist_name, release, title y year usando select().
  • Encadena el resultado a filter() para obtener las pistas de la década de 1960.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
glimpse(track_metadata_tbl)

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Filter rows
  ___
Editar y ejecutar código