1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích cảm xúc trong R

Connected

Bài tập

Tạo một Tidy Text Tibble!

Vì bạn đã học về các nguyên tắc tidy, đoạn mã này sẽ giúp bạn tổ chức dữ liệu thành một tibble để có thể làm việc trong tidyverse!

Trước đó bạn đã học rằng áp dụng tidy() lên một đối tượng TermDocumentMatrix() sẽ chuyển TDM thành tibble. Trong bài này, bạn sẽ tạo dữ liệu từ trực tiếp từ cột đánh giá comments.

Đầu tiên, bạn dùng unnest_tokens() để chuyển văn bản về chữ thường và tách các đánh giá thành từng từ đơn.

Đôi khi việc lưu lại thứ tự từ gốc trong mỗi nhóm của corpus là hữu ích. Để làm vậy, hãy dùng mutate(). Trong mutate(), bạn sẽ dùng seq_along() để tạo một dãy số từ 1 đến độ dài của đối tượng. Cách này sẽ ghi lại đúng thứ tự từ như khi được viết.

Trong gói tm, bạn sẽ dùng removeWords() để loại bỏ stopwords. Còn trong tidyverse, trước hết bạn cần nạp bộ từ dừng (stop words) rồi áp dụng anti_join() giữa khung dữ liệu tidy text và bộ stopwords.

Hướng dẫn

100 XP
  • Tạo tidy_reviews bằng cách pipe (%>%) đối tượng đánh giá gốc bos_reviews vào hàm unnest_tokens(). Truyền tên cột mới word và khai báo cột comments. Nhớ rằng trong tidyverse bạn không cần dùng $ hay dấu ngoặc kép.
  • Tạo một biến mới theo cách tidy! Ghi đè tidy_reviews bằng cách pipe tidy_reviews vào group_by với cột id. Sau đó %>% tiếp vào mutate(). Bên trong mutate, tạo biến mới original_word_order bằng seq_along(word).
  • In ra tibble tidy_reviews.
  • Nạp sẵn bộ stopwords "SMART" vào phiên R của bạn với data("stop_words").
  • Ghi đè tidy_reviews bằng cách truyền tidy_reviews gốc vào anti_join() với %>%. Bên trong anti_join(), truyền vào bộ từ điển stop_words đã được cung cấp trước.