1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ正規表現

Connected

演習

彼らはボットでしょうか?

あなたが働いている会社から、ツイートのデータセットを使ってセンチメント分析を行うよう依頼されました。まずはクリーニングと情報抽出が必要です。
テキストを表示していると、一部のツイートにユーザーのメンションが含まれていることに気づきます。その中にはとても奇妙なパターンのものがあります。例として、@robot3!、@robot5&、@robot7# などです。

それらのユーザーがボットかどうかを分析するため、まずは 1 件のツイートで概念実証を行い、.findall() メソッドを使って抽出してみます。

後で役立つメタ文字をメモしておきます:

\d: 数字
\w: 単語構成文字
\W: 非単語文字
\s: 空白文字

あるツイートの本文は変数 sentiment_analysis に保存されています。IPython シェルで print(sentiment_analysis) を実行すると内容を確認できます。

指示

100 XP
  • re モジュールをインポートします。
  • @ で始まり、例の @robot3! のようなパターンに一致するユーザーメンションにマッチする正規表現を書きます。
  • そのパターンの一致を、変数 sentiment_analysis の中からすべて見つけます。