1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

Exercise

TED Talk レコメンダー

この演習では、トークの書き起こしに基づいて TED Talk を提案するレコメンデーションシステムを作成します。すでに、トークのタイトル、類似度行列、indices シリーズを引数に取り、最も類似したトークのリストを返す get_recommendations() 関数が用意されています。indices はすでに提供済みです。

また、約 500 件の TED Talk の書き起こしを含む transcripts シリーズも用意されています。あなたのタスクは、各トークの書き起こしの tf-idf ベクトルに対するコサイン類似度行列を生成することです。

最後に、ブラジル人起業家 Bel Pesce による「5 ways to kill your dreams」というタイトルのトークに対するレコメンデーションを生成します。

Instructions

100 XP
  • 英語のストップワードを指定して TfidfVectorizer を初期化し、tfidf という名前を付けます。
  • transcripts に対してフィットして変換し、tfidf_matrix を作成します。
  • tfidf_matrix からコサイン類似度行列 cosine_sim を生成します。
  • get_recommendations() を使って、'5 ways to kill your dreams' に対するレコメンデーションを作成します。