1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Unsupervised Learning bằng Python

Connected

Bài tập

Mảng tần suất từ tf-idf

Trong bài này, bạn sẽ tạo một mảng tần suất từ tf-idf cho một bộ tài liệu ví dụ nhỏ. Hãy dùng TfidfVectorizer từ sklearn. Công cụ này biến danh sách tài liệu thành một mảng tần suất từ và xuất ra dưới dạng csr_matrix. Nó có các phương thức fit() và transform() giống như các đối tượng sklearn khác.

Bạn được cung cấp danh sách documents gồm các tài liệu ví dụ về thú cưng.

Hướng dẫn

100 XP
  • Import TfidfVectorizer từ sklearn.feature_extraction.text.
  • Tạo một thể hiện TfidfVectorizer đặt tên là tfidf.
  • Áp dụng phương thức .fit_transform() của tfidf lên documents và gán kết quả cho csr_mat. Đây là một mảng tần suất từ ở định dạng csr_matrix.
  • Khám phá csr_mat bằng cách gọi phương thức .toarray() của nó và in kết quả. Phần này đã được làm sẵn cho bạn.
  • Các cột của mảng tương ứng với các từ. Lấy danh sách các từ bằng cách gọi phương thức .get_feature_names_out() của tfidf, và gán kết quả cho words.