word2vec

インターネットから多数の職種名をWebスクレイピングしてきましたが、分析のためにさらに職種名を収集すべきか迷っています。現在までに、job_titles というデータセットに13,000件以上の職種名を集めています。word2vecは、十分な学習データがあると最も良く機能し、データ内で十分に登場しない語はモデルの有用性を下げる可能性があると読んだことがあるはずです。

この演習では、データ量を増やすことがどれだけ有効かを確かめるために、モデルを3回実行します。各実行では使用するデータ量を増やしていきます。