CommencerCommencer gratuitement

K-means pour le regroupement des retours

Vous disposez d’un jeu de données de retours utilisateurs, et vous avez utilisé un modèle GPT pour calculer un score de confiance pour chaque réponse. Pour repérer les retours inhabituels ou aberrants, vous appliquez un clustering k-means aux réponses à faible confiance.

L’algorithme KMeans, les variables reviews et confidences, ainsi que la bibliothèque np ont été préchargés.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Initialisez l’algorithme k-means. Définissez random_state à 42 pour la reproductibilité du code.
  • Calculez les distances par rapport aux centres de clusters pour identifier les valeurs aberrantes comme la différence entre data et les centres de clusters correspondants.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def detect_anomalies(data, n_clusters=3):
    # Initialize k-means
    ____
    clusters = kmeans.fit_predict(data)
    centers = kmeans.cluster_centers_

    # Calculate distances from cluster centers
    ____
    return distances
  
anomalies = detect_anomalies(confidences)
print(anomalies)
Modifier et exécuter le code