Aan de slagGa gratis aan de slag

K-means voor het clusteren van feedback

Je hebt een gegevensset met feedbackreacties, en je hebt een GPT-model gebruikt om vertrouwensscores voor elke reactie te berekenen. Om ongewone of afwijkende feedback te vinden, pas je k-means-clustering toe op de reacties met een lage vertrouwensscore.

Het KMeans-algoritme, de variabelen reviews en confidences, en de np-bibliotheek zijn al ingeladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Initialiseer het k-means-algoritme. Stel random_state in op 42 voor reproduceerbaarheid van de code.
  • Bereken de afstanden vanaf de clustercentra om uitschieters te identificeren als het verschil tussen data en de bijbehorende clustercentra.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def detect_anomalies(data, n_clusters=3):
    # Initialize k-means
    ____
    clusters = kmeans.fit_predict(data)
    centers = kmeans.cluster_centers_

    # Calculate distances from cluster centers
    ____
    return distances
  
anomalies = detect_anomalies(confidences)
print(anomalies)
Code bewerken en uitvoeren