1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

Exercises

word2vec

インターネットから多数の職種名をWebスクレイピングしてきましたが、分析のためにさらに職種名を収集すべきか迷っています。現在までに、job_titles というデータセットに13,000件以上の職種名を集めています。word2vecは、十分な学習データがあると最も良く機能し、データ内で十分に登場しない語はモデルの有用性を下げる可能性があると読んだことがあるはずです。

この演習では、データ量を増やすことがどれだけ有効かを確かめるために、モデルを3回実行します。各実行では使用するデータ量を増やしていきます。

คำแนะนำ 1 / 3

undefined XP
  • 1
    • 利用可能なデータの33%を使って、teacher の類義語のリストを出力してください。
  • 2
    • コードを更新して、利用可能なデータの66%を使用してください。
  • 3
    • コードを更新して、利用可能なデータの100%を使用してください。