1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

フェイクニュースにおける名詞の使い方

この演習では、フェイクまたは本物のニュース見出しを含むデータフレーム headlines が与えられています。あなたのタスクは、headlines の title に含まれる固有名詞とその他の名詞の数を表す、新しい特徴量 num_propn と num_noun を作成することです。

次に、フェイクニュースと本物のニュースの見出しで使われている固有名詞とその他の名詞の平均数を計算し、それらを比較します。もし大きな差があれば、フェイクニュース検出器に num_propn と num_noun を特徴量として使うことで、性能向上が見込めます。

このタスクを進めるために、前の演習で作成した関数 proper_nouns と nouns はすでに利用可能になっています。

指示1 / 2

undefined XP
  • 1
    • headlines['title'] に proper_nouns を適用して、新しい特徴量 num_propn を作成します。
    • フェイクニュースにおける固有名詞の平均数を計算するために、headlines をフィルタリングしてから mean メソッドを使います。
  • 2
    • その他の名詞でも同じ手順を行います。nouns を使って特徴量 'num_noun' を作成し、その他の名詞の平均を計算します