ComeçarComece de graça

Mais do que palavras: tokenização (3)

ft_tokenizer() usa uma técnica simples para gerar palavras dividindo o texto por espaços. Para usos mais avançados, você pode usar expressões regulares para dividir os dados de texto. Isso é feito pela função ft_regex_tokenizer(), que tem o mesmo uso que ft_tokenizer(), mas com um argumento extra pattern para o separador.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

O valor de retorno de ft_regex_tokenizer(), assim como de ft_tokenizer(), é uma lista de listas de vetores de caracteres.

O conjunto de dados contém um campo chamado artist_mbid que traz um ID do artista no MusicBrainz, um site enciclopédico de metadados musicais. Os IDs têm a forma de números hexadecimais separados por hífens, por exemplo, 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

  • Selecione o campo artist_mbid de track_metadata_tbl.
  • Divida os IDs do MusicBrainz em blocos de números hexadecimais.
    • Chame ft_regex_tokenizer().
    • A coluna de saída deve se chamar artist_mbid_chunks.
    • Use um hífen, -, no argumento pattern.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Select artist_mbid column
  ___ %>%
  # Split it by hyphens
  ___
Editar e executar o código