1. 学ぶ
  2. /
  3. コース
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

演習

単語を超えて:トークン化(3)

ft_tokenizer() は、テキストデータをスペースで区切ることで単語を生成するシンプルな手法を使います。より高度な用途には、正規表現を使ってテキストを分割することができます。これには ft_regex_tokenizer() 関数を使います。この関数は ft_tokenizer() と同じ使い方ですが、分割パターンを指定するための pattern 引数が追加されています。

a_tibble %>%
  ft_regex_tokenizer("x", "y", pattern = regex_pattern)

ft_regex_tokenizer() の戻り値は、ft_tokenizer() と同様に、文字ベクトルのリストのリストです。

データセットには artist_mbid というフィールドがあり、音楽メタデータの百科事典サイトである MusicBrainz 上のアーティスト ID が格納されています。この ID は、ハイフンで区切られた16進数の形式で、例えば 65b785d9-499f-48e6-9063-3a1fd1bd488d のようになっています。

指示

100 XP
  • track_metadata_tbl から artist_mbid フィールドを選択します。
  • MusicBrainz ID を16進数の数値ブロックに分割します。
    • ft_regex_tokenizer() を呼び出します。
    • 出力列の名前は artist_mbid_chunks にします。
    • pattern 引数にはハイフン - を使います。