spaCy でのテキスト処理

すべての NLP アプリケーションは、いくつかのテキスト処理ステップで構成されています。これまでに、トークン化、レンマ化、文分割、固有表現認識などのステップを学びました。

spaCy NLP Pipeline

この演習では、spaCy による文への分割や固有表現の抽出など、テキスト処理の手順を引き続き練習します。Amazon Fine Food Reviews データセットの最初の 5 件のレビューを使用します。これらのレビューには texts オブジェクトでアクセスできます。

en_core_web_sm モデルはすでに読み込まれており、nlp から利用できます。texts の各要素に対応する Doc コンテナのリストも事前に用意されており、documents で参照できます。

リスト内包表記を使って、documents 内の各 doc コンテナに含まれるすべての文のリストからなる sentences（リストのリスト）を作成してください。
len() メソッドを使って、各 doc コンテナの文数を格納したリスト num_sentences を出力してください。