1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Làm sạch dữ liệu văn bản

Giờ bạn đã xác định được stopwords và dấu câu, hãy dùng chúng để làm sạch thêm email enron trong dataframe df. Các danh sách chứa stopwords và dấu câu có sẵn trong stop và exclude. Vẫn còn vài bước nữa trước khi dữ liệu thực sự sạch, như "lemmatization" từ và stemming động từ. Các động từ trong dữ liệu email đã được stemming, và việc lemmatization cũng đã được thực hiện sẵn cho bạn trong bài tập này.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Dùng các biến đã định nghĩa trước stop và exclude để hoàn thiện hàm: Loại bỏ khoảng trắng ở cuối từ bằng rstrip, và loại trừ stopwords cùng dấu câu. Cuối cùng, lemmatize các từ và gán vào normalized.