Voto di maggioranza su più fonti di dati

Il tuo team sta sviluppando un modello di AI per generare automaticamente report di controllo qualità (QC) per smartphone. A questo scopo, avete raccolto dati di preferenza da tre diverse fonti di controllo qualità: un "Automated Vision System", un "Human Inspector" e "Customer Feedback". Ognuna ha etichettato coppie di testi come 'chosen' e 'rejected'. Ogni coppia ha un 'id' univoco e ogni voce mostra una revisione QC preferita.

quality_df è un DataFrame combinato caricato con pandas. Contiene dati provenienti dalle tre diverse fonti. Inoltre, la classe Counter è stata preimportata dal modulo collections.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza corso

Istruzioni dell'esercizio

Conta le occorrenze di ciascuna coppia (chosen, rejected) nella funzione di voto.
Trova la coppia (chosen, rejected) con il conteggio di voti più alto.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

Questo capitolo introduce le basi del Reinforcement Learning with Human Feedback (RLHF), una tecnica che utilizza l’input umano per aiutare i modelli di AI a imparare in modo più efficace. Inizia con l’RLHF comprendendo come si differenzia dal reinforcement learning tradizionale e perché il feedback umano può migliorare le prestazioni dell’AI in vari ambiti.

Exercise 1: Introduzione a RLHF Exercise 2: Generazione di testo con RLHF Exercise 3: Classificare il testo generato per RLHF Exercise 4: RL vs. RLHF Exercise 5: Esplorare gli LLM pre-addestrati Exercise 6: Tokenizza un insieme di dati testuale Exercise 7: Fine-tuning per la classificazione delle recensioni Exercise 8: Preparare i dati per RLHF Exercise 9: Preparare l'insieme di dati delle preferenze Exercise 10: Estrazione dei prompt

In questo capitolo scoprirai come impostare sistemi per raccogliere feedback umano. Imparerai le migliori pratiche per ottenere dati di alta qualità, dai confronti a coppie al campionamento basato sull’incertezza, ed esplorerai strategie per potenziare la tua raccolta dati.

Exercise 1: Metodi per raccogliere feedback di alta qualità Exercise 2: Capire confronto e rating nell'RLHF Exercise 3: Confrontare gli slogan per una campagna in palestra Exercise 4: Valutare la qualità e la pertinenza del feedback Exercise 5: Bassa confidenza Exercise 6: K-means per il clustering del feedback Exercise 7: Active learning Exercise 8: Implementare una pipeline di active learning Exercise 9: Ciclo di active learning

In questo capitolo entrerai nel cuore dell’addestramento con Reinforcement Learning from Human Feedback. Esplorerai il fine-tuning con PPO, tecniche per addestrare in modo efficiente e come gestire potenziali divergenze rispetto agli obiettivi delle tue metriche.

Exercise 1: Esplorare i modelli di ricompensa Exercise 2: Inizializzare il reward Exercise 3: Configurare il reward trainer Exercise 4: Training con PPO Exercise 5: Inizializza il trainer PPO Exercise 6: Fine-tuning con PPO Exercise 7: Ottimizzazione efficiente del fine-tuning in RLHF Exercise 8: Preparazione al training a 8 bit Exercise 9: Addestra con LoRA

In questo ultimo capitolo su Reinforcement Learning from Human Feedback (RLHF) esplorerai le tecniche chiave per valutare e migliorare le prestazioni del modello: dalle metriche per il fine-tuning all’integrazione di fonti di feedback diversificate, avrai a disposizione una cassetta degli attrezzi completa per perfezionare i tuoi modelli in modo efficace.

Exercise 1: Metriche del modello e regolazioni Exercise 2: Mitigare la divergenza KL negativa Exercise 3: Verificare il reward model Exercise 4: Integrare fonti di feedback diversificate Exercise 5: Voto di maggioranza su più fonti di dati

Esercizio attuale

Exercise 6: Identificazione di fonti di dati inaffidabili Exercise 7: Valutare i modelli RLHF Exercise 8: Interpretare le curve Exercise 9: Valutare l'RLHF con metriche Exercise 10: Concludi il tuo percorso RLHF