1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

spaCy による文分割

この演習では、文分割を練習します。NLP では、文書を文ごとに区切るのは有用な基本処理です。固有表現抽出のような、より複雑な多くの NLP タスクにおける最初のステップの一つです。さらに、文の数を把握することで、そのテキストがどの程度の情報量を含むかの手がかりにもなります。

texts というリストに、10 件のフードレビューが入っています。

en_core_web_sm モデルはすでに nlp として読み込まれています。

指示

100 XP
  • texts リストの各要素に spaCy モデルを適用し、すべての Doc コンテナからなるリスト documents を作成します。
  • documents リストを反復し、各 doc コンテナの文を抽出して、sentences というリストに追加します。
  • sentences リストを使って、各 doc コンテナに含まれる文の数を数えます。