학습

/

강의

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

피드백 클러스터링을 위한 K-means

피드백 응답으로 구성된 데이터셋이 있고, 각 응답에 대해 GPT 모델로 신뢰도 점수를 계산했습니다. 비정상적이거나 이상치에 해당하는 피드백을 찾기 위해, 신뢰도가 낮은 응답들에 k-means 클러스터링을 적용하려고 합니다.

KMeans 알고리즘, reviews와 confidences 변수, 그리고 np 라이브러리는 미리 로드되어 있습니다.

지침

100 XP

k-means 알고리즘을 초기화하세요. 코드 재현성을 위해 random_state를 42로 설정합니다.
클러스터 중심으로부터의 거리를 계산해 이상치를 식별하세요. data와 해당 클러스터 중심의 차이를 사용합니다.