Plus que des mots : tokenisation (3)
ft_tokenizer() utilise une technique simple pour générer des mots en séparant le texte sur les espaces. Pour des usages plus avancés, vous pouvez utiliser des expressions régulières pour découper les données textuelles. Cela se fait via la fonction ft_regex_tokenizer(), qui s’utilise comme ft_tokenizer(), mais avec un argument supplémentaire pattern pour le séparateur.
a_tibble %>%
ft_regex_tokenizer("x", "y", pattern = regex_pattern)
La valeur renvoyée par ft_regex_tokenizer(), comme pour ft_tokenizer(), est une liste de listes de vecteurs de caractères.
Le jeu de données contient un champ nommé artist_mbid qui correspond à l’identifiant de l’artiste sur MusicBrainz, un site web encyclopédique de métadonnées musicales. Les identifiants sont des nombres hexadécimaux séparés par des tirets, par exemple : 65b785d9-499f-48e6-9063-3a1fd1bd488d.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
- Sélectionnez le champ
artist_mbiddepuistrack_metadata_tbl. - Découpez les identifiants MusicBrainz en blocs de nombres hexadécimaux.
- Appelez
ft_regex_tokenizer(). - La colonne de sortie doit s’appeler
artist_mbid_chunks. - Utilisez un tiret,
-, pour l’argumentpattern.
- Appelez
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Select artist_mbid column
___ %>%
# Split it by hyphens
___