1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶSentiment Analysis

Connected

演習

商品のレビューの言語検出

小さなデータセットnon_english_reviewsで言語検出を練習します。これはAmazonの商品のレビューから、英語以外のレビューを抜き出したサンプルです。

データセットの各行を反復し、それぞれの行の言語を検出して空のリストに追加していきます。そのリストは、通常の出力en:0.9987654ではなく、英語なら'en'のように言語コードだけが含まれるようにクレンジングする必要があります。言語検出関数は複数の言語を検出することがあり、返されるリストの最初の要素が最も可能性の高い候補であることを覚えておいてください。最後に、そのリストを新しい列に代入します。

ロジックはスライドや直前の演習と同じですが、関数をリストに適用するのではなく、データセットに対して行います。

指示

100 XP
  • non_english_reviewsデータセットの行を反復処理します。
  • ループ内で、データセットの2番目の列の言語を検出します。
  • リスト内包表記の中で、:で分割して文字列をクレンジングします。
  • 最後に、クレンジング後のリストを新しい列に代入します。