Active learning-loop

Nu je je active learner hebt opgezet, is het tijd om ’m te gebruiken! In deze oefening implementeer je een lus waarmee je de categorisatie van de data continu verbetert.

De gegevensset is geladen met X_labeled voor gelabelde trainingsdata, X_unlabeled voor ongelabelde trainingsdata en y_labeled voor de labels.

Het object learner is al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Oefeninstructies

Implementeer een lus die 10 queries uitvoert.
Laat in elke iteratie de learner zichzelf trainen met de huidige gelabelde data.
Gebruik de learner om de meest onzekere datapunten uit de ongelabelde data op te vragen, met het aantal instanties ingesteld op 5.
Werk de ongelabelde gegevensset daarna bij.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set the number of queries
____
for _ in range(n_queries):
    # Use the current labeled data
    ____
    # Query from unlabeled data
    query_idx, _ = ____  
    X_new, y_new = X_unlabeled[query_idx], y[query_idx]  
    X_labeled = np.vstack((X_labeled, X_new))  
    y_labeled = np.append(y_labeled, y_new)  
    # Update the unlabeled dataset
    X_unlabeled = np.delete(____, query_idx, axis=0)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk behandelt de basis van Reinforcement Learning with Human Feedback (RLHF), een techniek die menselijk input gebruikt om AI-modellen effectiever te laten leren. Begin met RLHF door te begrijpen hoe het verschilt van traditionele reinforcement learning en waarom menselijke feedback de prestaties van AI in uiteenlopende domeinen kan verbeteren.

Exercise 1: Introductie tot RLHF Exercise 2: Tekstgeneratie met RLHF Exercise 3: Gegenereerde tekst classificeren voor RLHF Exercise 4: RL vs. RLHF Exercise 5: Voorgetrainde LLM's verkennen Exercise 6: Tokenizeer een tekstgegevensset Exercise 7: Fine-tunen voor reviewclassificatie Exercise 8: Data voorbereiden voor RLHF Exercise 9: De voorkeursgegevensset voorbereiden Exercise 10: Prompts extraheren

Ontdek in dit hoofdstuk hoe je systemen opzet om menselijke feedback te verzamelen. Leer best practices voor het verzamelen van hoogwaardige data, van paargewijze vergelijkingen tot uncertainty sampling, en verken strategieën om je dataverzameling te versterken.

Exercise 1: Methoden om feedback van hoge kwaliteit te verzamelen Exercise 2: Vergelijking en beoordeling in RLHF begrijpen Exercise 3: Slogans vergelijken voor een sportschoolcampagne Exercise 4: De kwaliteit en relevantie van feedback meten Exercise 5: Laag vertrouwen Exercise 6: K-means voor het clusteren van feedback Exercise 7: Actief leren Exercise 8: Een active learning-pijplijn implementeren Exercise 9: Active learning-loop

Huidige oefening

In dit hoofdstuk duik je in de kern van trainen met Reinforcement Learning from Human Feedback. Je verkent fine-tuning met PPO, technieken voor efficiënt trainen en hoe je mogelijke afwijkingen van de doelstellingen van je metriek aanpakt.

Exercise 1: Rewardmodellen onder de loep Exercise 2: De beloning initialiseren Exercise 3: De reward trainer instellen Exercise 4: Trainen met PPO Exercise 5: Initialiseer de PPO-trainer Exercise 6: PPO-finetuning Exercise 7: Efficiënt fine-tunen in RLHF Exercise 8: Voorbereiden op 8-bit-training Exercise 9: Trainen met LoRA

Verken in dit laatste hoofdstuk van Reinforcement Learning from Human Feedback (RLHF) belangrijke technieken om modelprestaties te beoordelen en te verbeteren: van het verfijnen van metriek tot het integreren van diverse feedbackbronnen. Je krijgt een complete gereedschapskist om je modellen effectief te finetunen.

Exercise 1: Modelmetingen en bijsturing Exercise 2: Negatieve KL-divergentie beperken Exercise 3: Het rewardmodel controleren Exercise 4: Diverse feedbackbronnen integreren Exercise 5: Meerderheidsstemming over meerdere databronnen Exercise 6: Onbetrouwbare gegevensbron identificeren Exercise 7: RLHF-modellen evalueren Exercise 8: Curves interpreteren Exercise 9: RLHF evalueren met metriek Exercise 10: Afronding van je RLHF-reis