1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Bài tập

Làm sạch với qdap

Gói qdap cung cấp các hàm làm sạch văn bản khác. Mỗi hàm đều hữu ích theo cách riêng và đặc biệt mạnh khi kết hợp với nhau.

  • bracketX(): Xóa toàn bộ văn bản bên trong ngoặc (ví dụ: "It's (so) cool" thành "It's cool")
  • replace_number(): Thay số bằng dạng chữ tương ứng (ví dụ: "2" thành "two")
  • replace_abbreviation(): Thay chữ viết tắt bằng dạng đầy đủ (ví dụ: "Sr" thành "Senior")
  • replace_contraction(): Chuyển các dạng viết tắt về cụm từ gốc (ví dụ: "shouldn't" thành "should not")
  • replace_symbol(): Thay các ký hiệu phổ biến bằng từ tương ứng (ví dụ: "$" thành "dollar")

Hướng dẫn

100 XP

Áp dụng các hàm sau cho đối tượng text từ bài trước:

  • bracketX()
  • replace_number()
  • replace_abbreviation()
  • replace_contraction()
  • replace_symbol()