1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

Exercise

TEDトークの単語数

ted は、500本のTEDトークの書き起こしを含むデータフレームです。各トークのおおよその単語数を表す新しい特徴量 word_count を作成し、さらにトークの平均単語数も計算します。書き起こしは ted の transcript という特徴量として利用できます。

この課題を完了するには、文字列を引数に取り、その文字列内の単語数を返す関数 count_words を定義します。次に、この関数を ted の transcript 特徴量に適用して新しい特徴量 word_count を作成し、その平均を計算します。

Instructions

100 XP
  • split() メソッドを使って string を単語のリストに分割します。
  • len() を使って、words の要素数を返します。
  • 作成した関数を ted の transcript 列に適用し、新しい特徴量 word_count を作成します。
  • mean() を使って、トークの平均単語数を計算します。