1. 学ぶ
  2. /
  3. コース
  4. /
  5. PyTorch で学ぶテキストの Deep Learning

Connected

演習

単語頻度の分析

おめでとうございます!あなたは PyBooks の一員になりました。PyBooks は本のレコメンドシステムを開発しており、推薦精度を高めるためにテキストからパターンや傾向を見つけたいと考えています。

まずは、与えられたテキスト内の単語の出現頻度を把握し、まれな単語を取り除きましょう。

実務のデータセットは、この例よりも一般的に大きいことに注意してください。

指示

100 XP
  • torchtext から get_tokenizer を、nltk ライブラリから FreqDist をインポートします。
  • 英語用のトークナイザを初期化し、与えられた text をトークン化します。
  • tokens の頻度分布を計算し、リスト内包表記を使ってまれな単語を取り除きます。