1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ正規表現

Connected

演習

すべてをクリーンに

Twitter の感情分析プロジェクトに戻りましょう。感情分析をややこしくする文字列がいくつかありますが、これらは有用な感情情報を提供しません。たとえばリンクやユーザーのメンションです。

ツイートをクリーンアップするために、まずはいくつかの例を抽出したいとします。多くの場合、リンクは http で始まり、空白文字を含まないことが分かっています(例: https://www.datacamp.com)。ユーザーのメンションは @ で始まり、英字と数字のみを含みます(例: @johnsmith3)。

役に立つ量指定子もメモしておきます。* は0回以上、+ は1回以上、? は0回または1回です。

3つのツイート本文を含むリスト sentiment_analysis は、すでにセッションに読み込まれています。IPython Shell でデータを確認するには、print() を使ってください。

指示

100 XP
  • re モジュールをインポートします。
  • sentiment_analysis の各 tweet に現れる http リンクのすべての一致を見つける正規表現を書き、結果を出力します。
  • sentiment_analysis の各 tweet に現れるユーザーのメンションのすべての一致を見つける正規表現を書き、結果を出力します。