Meerderheidsstemming over meerdere databronnen

Je team ontwikkelt een AI-model dat automatisch kwaliteitscontrole- (QC) rapporten voor smartphones genereert. Hiervoor heb je voorkeurdata verzameld uit drie verschillende QC-bronnen: een "Automated Vision System", een "Human Inspector" en "Customer Feedback". Ze hebben elk gepaarde tekstvoorbeelden gelabeld als 'chosen' en 'rejected'. Elk paar heeft een unieke 'id', en elke invoer laat een geprefereerde QC-beoordeling zien.

quality_df is een gecombineerde DataFrame die is ingeladen met pandas. Het bevat data uit de drie verschillende databronnen. Daarnaast is de klasse Counter vooraf geïmporteerd uit de module collections.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Oefeninstructies

Tel hoe vaak elk (chosen, rejected)-paar voorkomt in de vote-functie.
Zoek het (chosen, rejected)-paar met het hoogste aantal stemmen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

Dit hoofdstuk behandelt de basis van Reinforcement Learning with Human Feedback (RLHF), een techniek die menselijk input gebruikt om AI-modellen effectiever te laten leren. Begin met RLHF door te begrijpen hoe het verschilt van traditionele reinforcement learning en waarom menselijke feedback de prestaties van AI in uiteenlopende domeinen kan verbeteren.

Exercise 1: Introductie tot RLHF Exercise 2: Tekstgeneratie met RLHF Exercise 3: Gegenereerde tekst classificeren voor RLHF Exercise 4: RL vs. RLHF Exercise 5: Voorgetrainde LLM's verkennen Exercise 6: Tokenizeer een tekstgegevensset Exercise 7: Fine-tunen voor reviewclassificatie Exercise 8: Data voorbereiden voor RLHF Exercise 9: De voorkeursgegevensset voorbereiden Exercise 10: Prompts extraheren

Ontdek in dit hoofdstuk hoe je systemen opzet om menselijke feedback te verzamelen. Leer best practices voor het verzamelen van hoogwaardige data, van paargewijze vergelijkingen tot uncertainty sampling, en verken strategieën om je dataverzameling te versterken.

Exercise 1: Methoden om feedback van hoge kwaliteit te verzamelen Exercise 2: Vergelijking en beoordeling in RLHF begrijpen Exercise 3: Slogans vergelijken voor een sportschoolcampagne Exercise 4: De kwaliteit en relevantie van feedback meten Exercise 5: Laag vertrouwen Exercise 6: K-means voor het clusteren van feedback Exercise 7: Actief leren Exercise 8: Een active learning-pijplijn implementeren Exercise 9: Active learning-loop

In dit hoofdstuk duik je in de kern van trainen met Reinforcement Learning from Human Feedback. Je verkent fine-tuning met PPO, technieken voor efficiënt trainen en hoe je mogelijke afwijkingen van de doelstellingen van je metriek aanpakt.

Exercise 1: Rewardmodellen onder de loep Exercise 2: De beloning initialiseren Exercise 3: De reward trainer instellen Exercise 4: Trainen met PPO Exercise 5: Initialiseer de PPO-trainer Exercise 6: PPO-finetuning Exercise 7: Efficiënt fine-tunen in RLHF Exercise 8: Voorbereiden op 8-bit-training Exercise 9: Trainen met LoRA

Verken in dit laatste hoofdstuk van Reinforcement Learning from Human Feedback (RLHF) belangrijke technieken om modelprestaties te beoordelen en te verbeteren: van het verfijnen van metriek tot het integreren van diverse feedbackbronnen. Je krijgt een complete gereedschapskist om je modellen effectief te finetunen.

Exercise 1: Modelmetingen en bijsturing Exercise 2: Negatieve KL-divergentie beperken Exercise 3: Het rewardmodel controleren Exercise 4: Diverse feedbackbronnen integreren Exercise 5: Meerderheidsstemming over meerdere databronnen

Huidige oefening

Exercise 6: Onbetrouwbare gegevensbron identificeren Exercise 7: RLHF-modellen evalueren Exercise 8: Curves interpreteren Exercise 9: RLHF evalueren met metriek Exercise 10: Afronding van je RLHF-reis