K-means para agrupar feedbacks
Você tem um conjunto de dados de respostas de feedback e usou um modelo GPT para calcular escores de confiança para cada resposta. Para identificar feedbacks incomuns ou fora do padrão, você aplica k-means aos itens com baixa confiança.
O algoritmo KMeans, as variáveis reviews e confidences, e a biblioteca np já foram carregados.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Inicialize o algoritmo k-means. Defina
random_statecomo42para garantir reprodutibilidade do código. - Calcule as distâncias aos centros dos clusters para identificar outliers como a diferença entre
datae os respectivos centros do cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def detect_anomalies(data, n_clusters=3):
# Initialize k-means
____
clusters = kmeans.fit_predict(data)
centers = kmeans.cluster_centers_
# Calculate distances from cluster centers
____
return distances
anomalies = detect_anomalies(confidences)
print(anomalies)