単語を超えて：トークン化（3）

ft_tokenizer() は、テキストデータをスペースで区切ることで単語を生成するシンプルな手法を使います。より高度な用途には、正規表現を使ってテキストを分割することができます。これには ft_regex_tokenizer() 関数を使います。この関数は ft_tokenizer() と同じ使い方ですが、分割パターンを指定するための pattern 引数が追加されています。

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

ft_regex_tokenizer() の戻り値は、ft_tokenizer() と同様に、文字ベクトルのリストのリストです。

データセットには artist_mbid というフィールドがあり、音楽メタデータの百科事典サイトである MusicBrainz 上のアーティスト ID が格納されています。この ID は、ハイフンで区切られた16進数の形式で、例えば 65b785d9-499f-48e6-9063-3a1fd1bd488d のようになっています。

track_metadata_tbl から artist_mbid フィールドを選択します。
MusicBrainz ID を16進数の数値ブロックに分割します。
- ft_regex_tokenizer() を呼び出します。
- 出力列の名前は artist_mbid_chunks にします。
- pattern 引数にはハイフン - を使います。

演習

単語を超えて：トークン化（3）

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習