1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ中級正規表現

Connected

演習

コンテキスト付きで名前を抽出する

スイスの政治家に関するデータセットに戻りましょう。これは2つの変数から成ります。articles はスイス政治に関するニュース記事のコレクション、politicians は複数のスイスの政治家名を含むベクトルです。

すでに名前ごとの出現回数は数えましたが、名前を数えるだけでなく、その名前がどのような文脈で使われているかも見られたら面白いと思いませんか?例えば、女性政治家と男性政治家で文脈が異なるかを比較できます。そのためには、政治家の名前の前後にあるテキストを抽出する必要があります。

テキストには単語文字 \\w と、ピリオド . やカンマ , などの句読点 [:punct:] の両方が含まれているため、これら両方の文字種にマッチするパターンを作成してください。

指示

100 XP
  • ベクトル politicians を使って、チャプター2で行ったように「ORパターン」に結合してください。
  • 角かっこ [] で、単語文字と句読点の両方にマッチするカスタムパターンを作成してください。
  • glue を使って、新しく作った context を polit_pattern の前後両方に追加してください。\\s? は、政治家名の後にスペースがあってもなくてもよいことを示します。