MovieLens 데이터셋을 RDD로 로드하기

협업 필터링은 추천 시스템에서 사용하는 기법으로, 사용자가 다양한 상품에 남긴 평점과 상호작용 데이터를 바탕으로 새로운 항목을 추천해요. Machine Learning과 데이터 병렬 처리의 발달로 추천 시스템은 최근 다양한 분야에서 널리 활용되고 있으며, 영화, 음악, 뉴스, 도서, 연구 논문, 검색 쿼리, 소셜 태그 등에서 쓰이고 있어요. 이 3단계 연습 문제에서는 PySpark MLlib을 사용해 MovieLens 100k 데이터셋의 일부로 간단한 영화 추천 시스템을 만들어 볼 거예요.

첫 번째 단계에서는 MovieLens 데이터(ratings.csv)를 RDD로 로드한 뒤, RDD의 각 라인이 userId,movieId,rating,timestamp 형식이므로 timestamp 열을 제거하고 MovieLens 데이터를 Ratings 객체(userID, productID, rating)로 매핑한 다음, 최종적으로 RDD를 학습용과 테스트용 RDD로 분할해야 해요.

워크스페이스에는 SparkContext sc가 준비되어 있어요. 또한 ratings.csv 파일 경로인 file_path 변수와 ALS에 사용하는 클래스(예: Rating)도 이미 제공되어 있어요.

ratings.csv 데이터셋을 RDD로 로드하세요.
RDD의 각 라인을 , 구분자로 분할하세요.
RDD의 각 라인에 대해 Rating() 클래스를 사용해 userID, productID, rating 튜플을 만드세요.
데이터를 학습용과 테스트용(0.8과 0.2)으로 무작위로 분할하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제