1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

모델 학습과 예측

데이터를 학습용과 테스트용으로 분할한 뒤, 연습 문제의 두 번째 부분에서는 학습 데이터를 사용해 ALS 알고리즘을 학습합니다. PySpark MLlib의 ALS 알고리즘에는 rank(모델의 잠재 요인 수)와 iterations(반복 횟수) 두 가지 필수 매개변수가 있습니다. ALS 모델을 학습한 후에는 이 모델을 사용해 테스트 데이터의 평점을 예측할 수 있어요. 이를 위해 테스트 데이터셋에서 사용자와 아이템 열을 제공하고, 마지막으로 predictAll() 출력 중 2개 행의 목록을 반환하세요.

SparkContext sc, 그리고 training_data, test_data는 이미 작업 공간에 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • 학습 데이터와 설정된 매개변수(rank = 10, iterations = 10)로 ALS 알고리즘을 학습하세요.
  • 테스트 데이터에서 세 번째 열인 rating 열을 삭제하세요.
  • 테스트 데이터의 평점을 예측하여 모델을 검증하세요.
  • 예측된 평점 결과 중 두 개 행의 목록을 반환하세요.