1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Tạo một tibble từ một corpus

Để khám phá sâu hơn corpus về dữ liệu dầu thô mà bạn nhận từ đồng nghiệp, bạn quyết định tạo một pipeline để làm sạch văn bản trong các tài liệu. Thay vì tìm hiểu cách làm việc này với gói tm, bạn chọn chuyển đổi corpus thành một tibble để có thể dùng các hàm unnest_tokens(), count(), và anti_join() mà bạn đã quen thuộc. Corpus crude chứa cả metadata và văn bản của từng tài liệu.

Hướng dẫn

100 XP
  • Chuyển corpus thành một tibble.
  • Dùng names để in ra tên các cột.
  • Tách token (theo từ), đếm, và loại bỏ stop words từ cột text của crude_tibble.