1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Làm sạch các bài TED Talk trong một dataframe

Trong bài này, chúng ta sẽ quay lại các bài TED Talk từ chương đầu tiên. Bạn được cung cấp một dataframe ted gồm 5 bài TED Talk. Nhiệm vụ của bạn là làm sạch các bài nói này bằng các kỹ thuật đã thảo luận trước đó bằng cách viết hàm preprocess và áp dụng nó cho thuộc tính transcript của dataframe.

Danh sách stopwords có sẵn dưới tên stopwords.

Hướng dẫn

100 XP
  • Tạo đối tượng Doc cho text. Bỏ qua đối số disable lúc này.
  • Tạo các lemma bằng list comprehension sử dụng thuộc tính lemma_.
  • Loại bỏ các ký tự không phải chữ cái bằng isalpha() trong điều kiện if.