1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ中級正規表現

Connected

演習

さまざまな手法を試してみる

素晴らしいです。すでに複数の文字列距離の計算手法を学びましたね。どの手法を使うかは状況によって変わるため、各手法やそのパラメータを少しずつ試して慣れておくのが有効です。この演習では、検索語として誤記の "Marya Carey"(本来は "Mariah Carey")を使います。異なる文字列距離の手法では、この誤記は本来の名前とどの程度「近い」のでしょうか?

目標は、上記2つの名前の距離を小さくしつつ、検索対象ではない他の名前との距離は大きく保てるようなパラメータを見つけることです。

指示

100 XP
  • 部分文字列の長さを 1 と 2 にして q-gram を生成します。
  • q-gram 手法を使い、部分文字列の長さを 1 と 2 として search と names の文字列距離を計算します。
  • "osa" 手法を使って search と names の文字列距離を計算します。