1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

Exercise

コーパスから tibble を作成する

同僚から受け取った原油データのコーパスをさらに調べるために、文書に含まれるテキストをクリーンアップするためのパイプラインを作成することにしました。tm パッケージでのやり方を探る代わりに、コーパスを tibble に変換し、すでに使い慣れている unnest_tokens()、count()、anti_join() を使えるようにします。コーパス crude には、各文書のメタデータとテキストの両方が含まれています。

Instructions

100 XP
  • コーパスを tibble に変換します。
  • names を使って列名を表示します。
  • crude_tibble の text 列に対して、単語単位でトークン化し、カウントし、ストップワードを除去します。