Más que palabras: tokenización (3)
ft_tokenizer() usa una técnica sencilla para generar palabras dividiendo el texto por espacios. Para usos más avanzados, puedes usar expresiones regulares para dividir el texto. Esto se hace con la función ft_regex_tokenizer(), que se utiliza igual que ft_tokenizer(), pero con un argumento adicional pattern para el separador.
a_tibble %>%
ft_regex_tokenizer("x", "y", pattern = regex_pattern)
El valor de retorno de ft_regex_tokenizer(), igual que el de ft_tokenizer(), es una lista de listas de vectores de caracteres.
El conjunto de datos contiene un campo llamado artist_mbid que guarda un ID del artista en MusicBrainz, un sitio web enciclopédico de metadatos musicales. Los ID tienen la forma de números hexadecimales separados por guiones, por ejemplo, 65b785d9-499f-48e6-9063-3a1fd1bd488d.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
- Selecciona el campo
artist_mbiddetrack_metadata_tbl. - Divide los IDs de MusicBrainz en bloques de números hexadecimales.
- Llama a
ft_regex_tokenizer(). - La columna de salida debe llamarse
artist_mbid_chunks. - Usa un guion,
-, para el argumentopattern.
- Llama a
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Select artist_mbid column
___ %>%
# Split it by hyphens
___