K-means per il clustering del feedback
Hai un insieme di dati di risposte di feedback e hai usato un modello GPT per calcolare i punteggi di confidenza per ciascuna risposta. Per identificare feedback insoliti o anomali, applichi il clustering k-means alle risposte a bassa confidenza.
L'algoritmo KMeans, le variabili reviews e confidences e la libreria np sono già caricate.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Inizializza l'algoritmo k-means. Imposta
random_statea42per la riproducibilità del codice. - Calcola le distanze dai centri dei cluster per identificare gli outlier come differenza tra
datae i rispettivi centri del cluster.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
def detect_anomalies(data, n_clusters=3):
# Initialize k-means
____
clusters = kmeans.fit_predict(data)
centers = kmeans.cluster_centers_
# Calculate distances from cluster centers
____
return distances
anomalies = detect_anomalies(confidences)
print(anomalies)