1. 학습
  2. /
  3. 강의
  4. /
  5. Deep Learning cho Văn bản với PyTorch

Connected

연습 문제

Phân tích tần suất từ

Chúc mừng bạn! Bạn vừa gia nhập PyBooks. PyBooks đang phát triển hệ thống gợi ý sách và muốn tìm các mẫu và xu hướng trong văn bản để cải thiện đề xuất.

Để bắt đầu, bạn cần hiểu tần suất xuất hiện của các từ trong một văn bản nhất định và loại bỏ các từ hiếm.

Lưu ý rằng các bộ dữ liệu thực tế thường lớn hơn ví dụ này.

지침

100 XP
  • Import get_tokenizer từ torchtext và FreqDist từ thư viện nltk.
  • Khởi tạo bộ tách từ cho tiếng Anh và tách token cho text đã cho.
  • Tính phân bố tần suất của tokens và dùng list comprehension để loại bỏ các từ hiếm.