1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xây dựng Recommendation Engine bằng Python

Connected

Bài tập

Khởi tạo mô hình TF-IDF

Theo mặc định, TF-IDF tạo một cột cho mọi từ xuất hiện trong tất cả tài liệu của bạn (trong trường hợp này là tóm tắt phim). Điều này tạo ra một tập dữ liệu khổng lồ và khó hiểu, vì nó sẽ chứa cả những từ rất phổ biến xuất hiện trong mọi tài liệu lẫn những từ hiếm đến mức không giúp ích gì cho việc tìm điểm tương đồng giữa các mục.

Trong bài tập này, bạn sẽ làm việc với DataFrame df_plots. Nó chứa tên phim trong cột Title và phần tóm tắt trong cột Plot.

Dựa trên DataFrame này, bạn sẽ tạo các điểm số TF-IDF mặc định và kiểm tra xem có các cột không có giá trị hay không.

Sau đó, bạn sẽ chạy lại phép tính TF-IDF, lần này giới hạn số lượng cột bằng các đối số min_df và max_df và hy vọng thấy được sự cải thiện.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo một TfidfVectorizer và đặt tên là vectorizer.
  • Dùng vectorizer để biến đổi dữ liệu trong cột Plots của df_plots và gán đầu ra vào vectorized_data.
  • Kiểm tra các đặc trưng được tạo ra bởi phép biến đổi.