1. 학습
  2. /
  3. 강의
  4. /
  5. Phân cụm trong Python

Connected

연습 문제

TF-IDF cho phần tóm tắt phim

Hãy sử dụng phần tóm tắt của các bộ phim được chọn ngẫu nhiên để thực hiện phân cụm văn bản. Trước khi phân cụm, tài liệu cần được làm sạch nhiễu (như ký tự đặc biệt và stop words) và chuyển thành ma trận thưa thông qua TF-IDF.

Dùng lớp TfidfVectorizer để tính TF-IDF cho các phần tóm tắt phim được lưu trong danh sách plots. Hàm remove_noise() có sẵn để dùng làm tokenizer trong lớp TfidfVectorizer. Phương thức .fit_transform() sẽ fit dữ liệu vào đối tượng TfidfVectorizer và tạo ra ma trận thưa TF-IDF.

Lưu ý: Chạy phương thức .fit_transform() sẽ mất vài giây.

지침

100 XP
  • Import lớp TfidfVectorizer từ sklearn.
  • Khởi tạo lớp TfidfVectorizer với tần suất tối thiểu và tối đa lần lượt là 0.1 và 0.75, và tối đa 50 đặc trưng.
  • Dùng phương thức fit_transform() trên đối tượng TfidfVectorizer đã khởi tạo với danh sách plots.