Más que palabras: tokenización (3)

ft_tokenizer() usa una técnica sencilla para generar palabras dividiendo el texto por espacios. Para usos más avanzados, puedes usar expresiones regulares para dividir el texto. Esto se hace con la función ft_regex_tokenizer(), que se utiliza igual que ft_tokenizer(), pero con un argumento adicional pattern para el separador.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

El valor de retorno de ft_regex_tokenizer(), igual que el de ft_tokenizer(), es una lista de listas de vectores de caracteres.

El conjunto de datos contiene un campo llamado artist_mbid que guarda un ID del artista en MusicBrainz, un sitio web enciclopédico de metadatos musicales. Los ID tienen la forma de números hexadecimales separados por guiones, por ejemplo, 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Selecciona el campo artist_mbid de track_metadata_tbl.
Divide los IDs de MusicBrainz en bloques de números hexadecimales.
- Llama a ft_regex_tokenizer().
- La columna de salida debe llamarse artist_mbid_chunks.
- Usa un guion, -, para el argumento pattern.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Select artist_mbid column
  ___ %>%
  # Split it by hyphens
  ___

Editar y ejecutar código