1. Learn
  2. /
  3. Courses
  4. /
  5. Khai phá văn bản với Bag-of-Words trong R

Connected

Exercise

Nạp một ít văn bản

Text mining bắt đầu bằng cách nạp dữ liệu văn bản vào R, và mình sẽ làm điều đó với hàm read.csv().

Một thực hành tốt là kiểm tra đối tượng bạn vừa đọc vào để đảm bảo bạn biết cột (hoặc các cột) nào là quan trọng. Hàm str() là một cách hiệu quả để làm điều này.

Nếu data frame có các cột không phải văn bản, bạn có thể tạo một đối tượng mới chỉ dùng đúng cột văn bản (ví dụ, some_object$column_name).

Lưu ý đây là dữ liệu thật từ Twitter nên luôn có rủi ro chứa từ ngữ thô tục hoặc nội dung phản cảm (trong bài tập này và bất kỳ bài tập tiếp theo nào cũng dùng dữ liệu Twitter thật).

Instructions

100 XP

Dữ liệu đã được nạp sẵn và có trong coffee_data_file.

  • Tạo đối tượng mới tweets bằng read.csv() trên tệp coffee_data_file, tệp này chứa các tweet nhắc đến cà phê.
  • Kiểm tra đối tượng tweets bằng str() để xác định cột nào chứa văn bản bạn sẽ phân tích.
  • Tạo đối tượng coffee_tweets chỉ từ cột văn bản bạn vừa xác định. Để làm điều đó, dùng toán tử $ và tên cột.