1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Loại bỏ stopwords

Trong các bài tập sau, bạn sẽ làm sạch email Enron để có thể dùng dữ liệu cho mô hình chủ đề. Việc làm sạch văn bản có thể khó, nên bạn sẽ học một số bước để thực hiện hiệu quả. DataFrame chứa email df đã được cung cấp. Ở bước đầu tiên, bạn cần xác định danh sách stopwords và dấu câu sẽ bị loại bỏ khỏi dữ liệu văn bản trong bài tập tiếp theo. Hãy thử nhé.

Hướng dẫn

100 XP
  • Import stopwords từ ntlk.
  • Định nghĩa từ 'english' để dùng làm stopwords trong biến stop.
  • Lấy tập dấu câu từ gói string và gán cho exclude.