1. सीखें
  2. /
  3. पाठ्यक्रम
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

अभ्यास

NLTK による NER

ここでは固有表現認識(Named-Entity Recognition)を実際に試してみます。スクレイピングしたニュース記事がワークスペースに読み込まれています。nltk を使ってこの記事から固有表現を見つけてください。

見つかった名前から、この記事はどんな内容だと考えられますか。

nltk に加えて、nltk.tokenize から sent_tokenize と word_tokenize はすでにインポート済みです。

निर्देश

100 XP
  • article を文に分割します。
  • リスト内包表記を使って、sentences の各文を単語に分割します。
  • リスト内包表記の中で、nltk.pos_tag() を使って各分かち書き済みの文に品詞タグを付けます。
  • nltk.ne_chunk_sents() を使って、各タグ付き文を固有表現チャンクに分割します。pos_sentences に加えて、キーワード引数 binary=True も指定します。
  • 各文と各チャンクをループし、属性 label を持つか、さらに chunk.label() が "NE" と等しいかを確認して固有表現チャンクかどうかを判定します。該当する場合はそのチャンクを出力します。