1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xây dựng Recommendation Engine bằng Python

Connected

Bài tập

Dữ liệu hạn chế trong các hàng của bạn

Độ thưa dữ liệu này có thể gây vấn đề khi dùng các kỹ thuật như K-nearest neighbors như đã thảo luận ở chương trước. KNN cần tìm k người dùng giống nhất đã đánh giá một mục, nhưng nếu chỉ có số người dùng nhỏ hơn hoặc bằng k đã cho mục đó một đánh giá, thì tất cả các đánh giá sẽ đều là "giống nhất".

Trong bài tập này, bạn sẽ đếm số lần mỗi bộ phim trong DataFrame user_ratings_df được đánh giá, rồi xem có bao nhiêu phim chỉ có một hoặc hai lượt đánh giá.

Hướng dẫn 1/3

undefined XP
  • 1
    • Đếm số ô không rỗng trong mỗi cột của user_ratings_df và lưu vào occupied_count.
  • 2
    • Sắp xếp occupied_count từ thấp đến cao. Khi xem Series đã sắp xếp, hãy ghi nhận số phim chỉ có một lượt đánh giá.
  • 3
    • Tạo biểu đồ histogram cho Series sorted_occupied_count mà bạn vừa tạo. matplotlib.pyplot đã được nạp dưới tên plt.