1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ中級正規表現

Connected

演習

文字列距離結合を実行する

異なるデータソースを統合することは、データ分析で非常によくある作業です。可能であれば、メールアドレスのような明確に識別できる値を使って2つのテーブルを結合するのが理想的です。しかし、ユーザーが名前しか入力しておらず、ユーザーデータベースで照合しなければならない場合はどうでしょうか。ここでの難しさは、名や姓を省略したり、タイプミスがあったり、一部をまったく入力していないことがある点です。

スコープには2つのデータフレーム user_input と database があります。前者には不完全なユーザー入力、後者には正しい名前が入っていますが、どちらのデータソースにも同じ100件の名前が含まれています。文字列距離結合を使って、そのうち何件を一致させられるでしょうか。ちなみに、距離の method は定義されていないため、デフォルトの最適文字整列距離 "osa" が使われます。

指示

100 XP
  • user_input と database を最大文字列距離 max_dist を指定して結合し、ちょうど80件の名前が一致するようにしてください。適切な最大距離が見つかるまで試行しましょう。
  • 新しく作成したテーブル joined を使って、人にわかりやすいレポート文を出力してください。