NLTK による NER

ここでは固有表現認識（Named-Entity Recognition）を実際に試してみます。スクレイピングしたニュース記事がワークスペースに読み込まれています。nltk を使ってこの記事から固有表現を見つけてください。

見つかった名前から、この記事はどんな内容だと考えられますか。

nltk に加えて、nltk.tokenize から sent_tokenize と word_tokenize はすでにインポート済みです。

article を文に分割します。
リスト内包表記を使って、sentences の各文を単語に分割します。
リスト内包表記の中で、nltk.pos_tag() を使って各分かち書き済みの文に品詞タグを付けます。
nltk.ne_chunk_sents() を使って、各タグ付き文を固有表現チャンクに分割します。pos_sentences に加えて、キーワード引数 binary=True も指定します。
各文と各チャンクをループし、属性 label を持つか、さらに chunk.label() が "NE" と等しいかを確認して固有表現チャンクかどうかを判定します。該当する場合はそのチャンクを出力します。