1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

テキストを読み込む

テキストマイニングは、まずテキストデータを R に読み込むところから始まります。ここでは read.csv() 関数を使います。

ベストプラクティスとして、読み込んだオブジェクトを確認し、どの列が重要かを把握しましょう。str() 関数を使うと効率よく確認できます。

データフレームにテキスト以外の列が含まれている場合は、正しいテキスト列だけを使って新しいオブジェクトを作成するとよいでしょう(例:some_object$column_name)。

これは Twitter の実データであるため、不快な表現や不適切な内容が含まれる可能性があります(この演習および以降の Twitter データを使用する演習でも同様です)。

指示

100 XP

データはすでに読み込まれており、coffee_data_file に用意されています。

  • コーヒーに言及しているツイートを含むファイル coffee_data_file に対して read.csv() を使い、新しいオブジェクト tweets を作成してください。
  • 解析したいテキストがどの列にあるかを確認するため、str() を使って tweets オブジェクトを確認してください。
  • 先ほど特定したテキスト列だけを使って、新しい coffee_tweets オブジェクトを作成してください。作成には $ 演算子と列名を使います。