1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶSentiment Analysis

Connected

Exercise

極性ベースのコーパスを作成する

この演習では、テキストマイニングのワークフローのステップ3を行います。qdap はtidyパッケージではありませんが、返される polarity リスト(ヒントです:all polarity のスコアです)に基づいて新しい列を mutate() で作成します。第3章では、ベースRのみで記述したカスタム関数 pol_subsections を使いましたが、tidyの原則に沿って、この演習ではまず filter() を使い、その後に pull() を導入します。pull() は単一の変数を取り出す点で [[ と同様に動作します。

分割できたら、ポジティブとネガティブのコメントをそれぞれ1つの大きなドキュメントに結合し、ポジティブ/ネガティブな宿泊レビューに含まれるすべての単語を代表させます。

最後に、TF-IDF(Term Frequency Inverse Document Frequency)で重み付けした単語文書行列(TDM)を作成します。この演習のコードはtidyな構造から始まるため、スタイルを統一する目的で、tm から拝借した関数を %>% 演算子とあわせて使用します。もし tm パッケージの基本に馴染みがなければ、Text Mining with Bag-of-Words in R コースを参照してください。単語の出現回数(頻度)を数える代わりに、TDM 内の値は使われすぎた語へのペナルティがかかるため、情報量の少ない語を抑制できます。

Instructions 1/4

undefined XP
    1
    2
    3
    4
  • ポジティブなコメントを取得します。
    • polarity 列を追加するために mutate し、値は bos_pol$all$polarity とします。
    • polarity が0より大きい行のみ残すように filter します。
    • pull() を使って comments 列を取り出します。(この列名はクォートせずに渡します。)
    • paste() を使ってスペース区切りの1つの文字列に結合します。collapse = " " を渡します。