1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

データフレーム内のTEDトークをクレンジングする

この演習では、第1章で扱ったTEDトークに戻ります。5本のTEDトークからなるデータフレーム ted が与えられています。これらのトークを、これまでに学んだ手法を用いてクレンジングします。具体的には、関数 preprocess を作成し、データフレームの transcript 特徴量に適用してください。

ストップワードのリストは stopwords として利用できます。

指示

100 XP
  • text に対して Doc オブジェクトを生成します。今は disable 引数は無視してかまいません。
  • lemma_ 属性を使い、リスト内包表記でレンマを生成します。
  • if 条件で isalpha() を使い、アルファベット以外の文字を取り除きます。