K-means voor het clusteren van feedback

Je hebt een gegevensset met feedbackreacties, en je hebt een GPT-model gebruikt om vertrouwensscores voor elke reactie te berekenen. Om ongewone of afwijkende feedback te vinden, pas je k-means-clustering toe op de reacties met een lage vertrouwensscore.

Het KMeans-algoritme, de variabelen reviews en confidences, en de np-bibliotheek zijn al ingeladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Oefeninstructies

Initialiseer het k-means-algoritme. Stel random_state in op 42 voor reproduceerbaarheid van de code.
Bereken de afstanden vanaf de clustercentra om uitschieters te identificeren als het verschil tussen data en de bijbehorende clustercentra.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def detect_anomalies(data, n_clusters=3):
    # Initialize k-means
    ____
    clusters = kmeans.fit_predict(data)
    centers = kmeans.cluster_centers_

    # Calculate distances from cluster centers
    ____
    return distances
  
anomalies = detect_anomalies(confidences)
print(anomalies)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk behandelt de basis van Reinforcement Learning with Human Feedback (RLHF), een techniek die menselijk input gebruikt om AI-modellen effectiever te laten leren. Begin met RLHF door te begrijpen hoe het verschilt van traditionele reinforcement learning en waarom menselijke feedback de prestaties van AI in uiteenlopende domeinen kan verbeteren.

Exercise 1: Introductie tot RLHF Exercise 2: Tekstgeneratie met RLHF Exercise 3: Gegenereerde tekst classificeren voor RLHF Exercise 4: RL vs. RLHF Exercise 5: Voorgetrainde LLM's verkennen Exercise 6: Tokenizeer een tekstgegevensset Exercise 7: Fine-tunen voor reviewclassificatie Exercise 8: Data voorbereiden voor RLHF Exercise 9: De voorkeursgegevensset voorbereiden Exercise 10: Prompts extraheren

Ontdek in dit hoofdstuk hoe je systemen opzet om menselijke feedback te verzamelen. Leer best practices voor het verzamelen van hoogwaardige data, van paargewijze vergelijkingen tot uncertainty sampling, en verken strategieën om je dataverzameling te versterken.

Exercise 1: Methoden om feedback van hoge kwaliteit te verzamelen Exercise 2: Vergelijking en beoordeling in RLHF begrijpen Exercise 3: Slogans vergelijken voor een sportschoolcampagne Exercise 4: De kwaliteit en relevantie van feedback meten Exercise 5: Laag vertrouwen Exercise 6: K-means voor het clusteren van feedback

Huidige oefening

Exercise 7: Actief leren Exercise 8: Een active learning-pijplijn implementeren Exercise 9: Active learning-loop

In dit hoofdstuk duik je in de kern van trainen met Reinforcement Learning from Human Feedback. Je verkent fine-tuning met PPO, technieken voor efficiënt trainen en hoe je mogelijke afwijkingen van de doelstellingen van je metriek aanpakt.

Exercise 1: Rewardmodellen onder de loep Exercise 2: De beloning initialiseren Exercise 3: De reward trainer instellen Exercise 4: Trainen met PPO Exercise 5: Initialiseer de PPO-trainer Exercise 6: PPO-finetuning Exercise 7: Efficiënt fine-tunen in RLHF Exercise 8: Voorbereiden op 8-bit-training Exercise 9: Trainen met LoRA

Verken in dit laatste hoofdstuk van Reinforcement Learning from Human Feedback (RLHF) belangrijke technieken om modelprestaties te beoordelen en te verbeteren: van het verfijnen van metriek tot het integreren van diverse feedbackbronnen. Je krijgt een complete gereedschapskist om je modellen effectief te finetunen.

Exercise 1: Modelmetingen en bijsturing Exercise 2: Negatieve KL-divergentie beperken Exercise 3: Het rewardmodel controleren Exercise 4: Diverse feedbackbronnen integreren Exercise 5: Meerderheidsstemming over meerdere databronnen Exercise 6: Onbetrouwbare gegevensbron identificeren Exercise 7: RLHF-modellen evalueren Exercise 8: Curves interpreteren Exercise 9: RLHF evalueren met metriek Exercise 10: Afronding van je RLHF-reis