Mais do que palavras: tokenização (3)
ft_tokenizer() usa uma técnica simples para gerar palavras dividindo o texto por espaços. Para usos mais avançados, você pode usar expressões regulares para dividir os dados de texto. Isso é feito pela função ft_regex_tokenizer(), que tem o mesmo uso que ft_tokenizer(), mas com um argumento extra pattern para o separador.
a_tibble %>%
ft_regex_tokenizer("x", "y", pattern = regex_pattern)
O valor de retorno de ft_regex_tokenizer(), assim como de ft_tokenizer(), é uma lista de listas de vetores de caracteres.
O conjunto de dados contém um campo chamado artist_mbid que traz um ID do artista no MusicBrainz, um site enciclopédico de metadados musicais. Os IDs têm a forma de números hexadecimais separados por hífens, por exemplo, 65b785d9-499f-48e6-9063-3a1fd1bd488d.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
- Selecione o campo
artist_mbiddetrack_metadata_tbl. - Divida os IDs do MusicBrainz em blocos de números hexadecimais.
- Chame
ft_regex_tokenizer(). - A coluna de saída deve se chamar
artist_mbid_chunks. - Use um hífen,
-, no argumentopattern.
- Chame
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Select artist_mbid column
___ %>%
# Split it by hyphens
___