1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Regex với tokenization trong NLTK

Twitter thường được dùng làm nguồn văn bản và bài toán cho NLP. Trong bài tập này, bạn sẽ xây dựng một bộ tách từ (tokenizer) phức tạp hơn cho tweet có hashtag và mention bằng nltk và regex. Lớp nltk.tokenize.TweetTokenizer cung cấp thêm một số phương thức và thuộc tính để phân tích tweet.

Tại đây, bạn được cung cấp một vài tweet mẫu để phân tách bằng cả TweetTokenizer và regexp_tokenize từ mô-đun nltk.tokenize. Các tweet mẫu này đã được nạp sẵn vào biến tweets. Bạn có thể thoải mái khám phá nó trong IPython Shell!

Khác với cú pháp của thư viện regex, với nltk_tokenize() bạn truyền pattern làm đối số thứ hai.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Từ nltk.tokenize, import regexp_tokenize và TweetTokenizer.