1. 学习
  2. /
  3. 课程
  4. /
  5. Python으로 추천 엔진 만들기

Connected

练习

행에 데이터가 부족할 때

이런 데이터 희소성은 지난 장에서 다룬 K-최근접 이웃 같은 기법을 사용할 때 문제를 일으킬 수 있어요. KNN은 어떤 아이템에 평점을 매긴 사용자들 중에서 가장 비슷한 사용자 k명을 찾아야 하는데, 해당 아이템에 평점을 준 사용자가 k명 이하라면 모든 평점이 "가장 비슷한" 것으로 간주돼요.

이번 연습 문제에서는 user_ratings_df DataFrame에서 각 영화가 평점을 받은 횟수를 계산하고, 그중 평점이 한 번 또는 두 번만 있는 영화가 얼마나 되는지 확인해 볼 거예요.

说明 1 / 共 3 个

undefined XP
  • 1
    • user_ratings_df의 각 열에서 비어 있지 않은 셀의 개수를 세어 occupied_count로 저장하세요.
  • 2
    • occupied_count를 낮은 값에서 높은 값으로 정렬하세요. 정렬된 Series를 보면서 리뷰가 1개만 있는 영화의 개수를 확인하세요.
  • 3
    • 방금 만든 sorted_occupied_count Series의 히스토그램을 생성하세요. matplotlib.pyplot은 plt로 불러와져 있어요.