Estrazione dei prompt

Stai lavorando con l’insieme di dati hendrydong/rlhf_helpful_eval, che contiene testo conversazionale tra un utente (Human) e un assistente (Assistant). Il tuo obiettivo è pulire il testo, preparando un prompt pulito in cui compaia solo il testo rilevante, senza schemi o tag specifici.

Scegli l’opzione che useresti per pulire l’insieme di dati ed estrarre i prompt. Puoi vedere un esempio di com’è fatto l’insieme di dati eseguendo il seguente codice nella console:

evaluation_data.iloc[range(1)]['text'][0]

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza corso

esercizio interattivo pratico

Trasforma la teoria in pratica con uno dei nostri esercizi interattivi

Inizia esercizio

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

4.8+

293 reviews

Inizia il corso gratuitamente

Questo capitolo introduce le basi del Reinforcement Learning with Human Feedback (RLHF), una tecnica che utilizza l’input umano per aiutare i modelli di AI a imparare in modo più efficace. Inizia con l’RLHF comprendendo come si differenzia dal reinforcement learning tradizionale e perché il feedback umano può migliorare le prestazioni dell’AI in vari ambiti.

Exercise 1: Introduzione a RLHF Exercise 2: Generazione di testo con RLHF Exercise 3: Classificare il testo generato per RLHF Exercise 4: RL vs. RLHF Exercise 5: Esplorare gli LLM pre-addestrati Exercise 6: Tokenizza un insieme di dati testuale Exercise 7: Fine-tuning per la classificazione delle recensioni Exercise 8: Preparare i dati per RLHF Exercise 9: Preparare l'insieme di dati delle preferenze Exercise 10: Estrazione dei prompt

Esercizio attuale

In questo capitolo scoprirai come impostare sistemi per raccogliere feedback umano. Imparerai le migliori pratiche per ottenere dati di alta qualità, dai confronti a coppie al campionamento basato sull’incertezza, ed esplorerai strategie per potenziare la tua raccolta dati.

Exercise 1: Metodi per raccogliere feedback di alta qualità Exercise 2: Capire confronto e rating nell'RLHF Exercise 3: Confrontare gli slogan per una campagna in palestra Exercise 4: Valutare la qualità e la pertinenza del feedback Exercise 5: Bassa confidenza Exercise 6: K-means per il clustering del feedback Exercise 7: Active learning Exercise 8: Implementare una pipeline di active learning Exercise 9: Ciclo di active learning

In questo capitolo entrerai nel cuore dell’addestramento con Reinforcement Learning from Human Feedback. Esplorerai il fine-tuning con PPO, tecniche per addestrare in modo efficiente e come gestire potenziali divergenze rispetto agli obiettivi delle tue metriche.

Exercise 1: Esplorare i modelli di ricompensa Exercise 2: Inizializzare il reward Exercise 3: Configurare il reward trainer Exercise 4: Training con PPO Exercise 5: Inizializza il trainer PPO Exercise 6: Fine-tuning con PPO Exercise 7: Ottimizzazione efficiente del fine-tuning in RLHF Exercise 8: Preparazione al training a 8 bit Exercise 9: Addestra con LoRA

In questo ultimo capitolo su Reinforcement Learning from Human Feedback (RLHF) esplorerai le tecniche chiave per valutare e migliorare le prestazioni del modello: dalle metriche per il fine-tuning all’integrazione di fonti di feedback diversificate, avrai a disposizione una cassetta degli attrezzi completa per perfezionare i tuoi modelli in modo efficace.

Exercise 1: Metriche del modello e regolazioni Exercise 2: Mitigare la divergenza KL negativa Exercise 3: Verificare il reward model Exercise 4: Integrare fonti di feedback diversificate Exercise 5: Voto di maggioranza su più fonti di dati Exercise 6: Identificazione di fonti di dati inaffidabili Exercise 7: Valutare i modelli RLHF Exercise 8: Interpretare le curve Exercise 9: Valutare l'RLHF con metriche Exercise 10: Concludi il tuo percorso RLHF