1. 学ぶ
  2. /
  3. コース
  4. /
  5. Xây dựng Recommendation Engine bằng Python

Connected

演習

So sánh tất cả phim của bạn cùng lúc

Việc tìm độ tương đồng Jaccard giữa từng cặp phim riêng lẻ trong tập dữ liệu rất hữu ích cho phân tích quy mô nhỏ, nhưng khi đưa ra gợi ý trên tập dữ liệu lớn thì có thể chậm.

Trong bài tập này, bạn sẽ tìm độ tương đồng giữa tất cả các phim và lưu chúng vào một DataFrame để tra cứu nhanh và tiện.

Khi tính độ tương đồng giữa các hàng trong một DataFrame, bạn có thể duyệt qua mọi cặp và tính từng cái một, nhưng hiệu quả hơn là dùng hàm pdist() (pairwise distance) từ scipy.

Kết quả có thể được biến đổi về dạng ma trận hình chữ nhật mong muốn bằng squareform() từ cùng thư viện. Vì bạn muốn giá trị tương đồng thay vì khoảng cách, hãy lấy 1 trừ đi các giá trị đó.

movie_cross_table đã được nạp sẵn cho bạn.

指示

100 XP
  • Tìm các độ đo khoảng cách Jaccard giữa tất cả các phim và gán kết quả cho jaccard_similarity_array.
  • Tạo một DataFrame từ jaccard_similarity_array với movie_genre_df.index làm cả hàng và cột.
  • In 5 hàng đầu của DataFrame và xem xét các điểm số tương đồng.