1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Więcej niż słowa: tokenizacja (3)

ft_tokenizer() używa prostej techniki do generowania słów – dzieli dane tekstowe według spacji. W bardziej zaawansowanych przypadkach możesz użyć wyrażeń regularnych do podziału tekstu. Służy do tego funkcja ft_regex_tokenizer(), która działa tak samo jak ft_tokenizer(), ale przyjmuje dodatkowy argument pattern określający separator.

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

Wartością zwracaną przez ft_regex_tokenizer(), podobnie jak w przypadku ft_tokenizer(), jest lista list wektorów znakowych.

Zbiór danych zawiera pole artist_mbid z identyfikatorem artysty w serwisie MusicBrainz – encyklopedii metadanych muzycznych. Identyfikatory mają postać liczb szesnastkowych rozdzielonych myślnikami, na przykład: 65b785d9-499f-48e6-9063-3a1fd1bd488d.

Instrukcje

100 XP
  • Wybierz pole artist_mbid z track_metadata_tbl.
  • Podziel identyfikatory MusicBrainz na fragmenty liczb szesnastkowych.
    • Wywołaj ft_regex_tokenizer().
    • Kolumna wyjściowa powinna nazywać się artist_mbid_chunks.
    • Jako argument pattern użyj myślnika, -.