1. 学ぶ
  2. /
  3. コース
  4. /
  5. spaCyで学ぶNatural Language Processing

Connected

演習

自分のデータでのモデル性能

この演習では、既存のモデルを自分のデータで評価する練習をします。ここでは特定のエンティティラベル PRODUCT に対するモデル性能を確認することが目的です。モデルが PRODUCT エンティティの大部分(例: 75%超)を正確に分類できる場合は、PRODUCT エンティティの例で追加学習する必要はありません。そうでない場合は、PRODUCT エンティティ予測の性能向上のために学習を検討します。

この演習では、Amazon Fine Food Reviews データセットから2件のレビューを使用します。これらのレビューには texts リストからアクセスできます。

en_core_web_sm モデルはすでに読み込まれており、nlp() で呼び出せます。モデルはすでに texts リストに対して実行済みで、Doc コンテナのリストである documents が利用可能です。

指示

100 XP
  • 各 documents について、すべてのエンティティを集めた target_entities リストを作成し、エンティティのテキストに Jumbo が含まれる場合に限り、(エンティティのテキスト, エンティティのラベル) のタプルを追加します。
  • target_entities 内の任意のタプルについて、エンティティラベル(タプルの2番目の要素)が PRODUCT であれば correct_labels リストに True を、そうでなければ False を追加します。