Plus que des mots : tokenisation (3)

ft_tokenizer() utilise une technique simple pour générer des mots en séparant le texte sur les espaces. Pour des usages plus avancés, vous pouvez utiliser des expressions régulières pour découper les données textuelles. Cela se fait via la fonction ft_regex_tokenizer(), qui s’utilise comme ft_tokenizer(), mais avec un argument supplémentaire pattern pour le séparateur.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

La valeur renvoyée par ft_regex_tokenizer(), comme pour ft_tokenizer(), est une liste de listes de vecteurs de caractères.

Le jeu de données contient un champ nommé artist_mbid qui correspond à l’identifiant de l’artiste sur MusicBrainz, un site web encyclopédique de métadonnées musicales. Les identifiants sont des nombres hexadécimaux séparés par des tirets, par exemple : 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Sélectionnez le champ artist_mbid depuis track_metadata_tbl.
Découpez les identifiants MusicBrainz en blocs de nombres hexadécimaux.
- Appelez ft_regex_tokenizer().
- La colonne de sortie doit s’appeler artist_mbid_chunks.
- Utilisez un tiret, -, pour l’argument pattern.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Select artist_mbid column
  ___ %>%
  # Split it by hyphens
  ___

Modifier et exécuter le code