Więcej niż słowa: tokenizacja (3)

ft_tokenizer() używa prostej techniki do generowania słów – dzieli dane tekstowe według spacji. W bardziej zaawansowanych przypadkach możesz użyć wyrażeń regularnych do podziału tekstu. Służy do tego funkcja ft_regex_tokenizer(), która działa tak samo jak ft_tokenizer(), ale przyjmuje dodatkowy argument pattern określający separator.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

Wartością zwracaną przez ft_regex_tokenizer(), podobnie jak w przypadku ft_tokenizer(), jest lista list wektorów znakowych.

Zbiór danych zawiera pole artist_mbid z identyfikatorem artysty w serwisie MusicBrainz – encyklopedii metadanych muzycznych. Identyfikatory mają postać liczb szesnastkowych rozdzielonych myślnikami, na przykład: 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Wybierz pole artist_mbid z track_metadata_tbl.
Podziel identyfikatory MusicBrainz na fragmenty liczb szesnastkowych.
- Wywołaj ft_regex_tokenizer().
- Kolumna wyjściowa powinna nazywać się artist_mbid_chunks.
- Jako argument pattern użyj myślnika, -.

ćwiczenie

Więcej niż słowa: tokenizacja (3)

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie