Mengklasifikasikan teks yang dihasilkan untuk RLHF

Sekarang Anda ingin mengategorikan ulasan yang dihasilkan. Salah satu cara untuk mengevaluasi keluaran adalah dengan mengukur tingkat positivitas ulasan yang dihasilkan menggunakan pengklasifikasi lvwerra/distilbert-imdb, yang juga dapat Anda inisialisasi menggunakan pipeline Hugging Face.

Pustaka pipeline telah diimpor sebelumnya dari transformers. Model lvwerra/distilbert-imdb telah dimuat sebelumnya sebagai model. Tokenizer telah dimuat sebelumnya sebagai tokenizer.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Instruksi latihan

Gunakan fungsi pipeline untuk membuat pipeline sentiment-analysis dengan model tersebut.
Klasifikasikan sentimen dari ulasan yang disediakan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a sentiment analysis pipeline
sentiment_analyzer = pipeline(____, model=____, tokenizer=____)

review_text = "Surprisingly, the film is a very good one"

# Classify the sentiment of the review
sentiment = sentiment_analyzer(____)
print(f"Sentiment Analysis Result: {sentiment}")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini memperkenalkan dasar-dasar Reinforcement Learning with Human Feedback (RLHF), sebuah teknik yang menggunakan masukan manusia untuk membantu model AI belajar lebih efektif. Mulailah dengan RLHF dengan memahami perbedaannya dari reinforcement learning tradisional dan mengapa umpan balik manusia dapat meningkatkan kinerja AI di berbagai domain.

Exercise 1: Pengantar RLHF Exercise 2: Generasi teks dengan RLHF Exercise 3: Mengklasifikasikan teks yang dihasilkan untuk RLHF

Latihan Saat Ini

Exercise 4: RL vs. RLHF Exercise 5: Menjelajahi LLM pralatih Exercise 6: Tokenisasi himpunan data teks Exercise 7: Fine-tuning untuk klasifikasi ulasan Exercise 8: Menyiapkan data untuk RLHF Exercise 9: Menyiapkan himpunan data preferensi Exercise 10: Mengekstrak prompt

Pelajari cara menyiapkan sistem untuk mengumpulkan umpan balik manusia dalam Bab ini. Kuasai praktik terbaik untuk mengumpulkan data berkualitas tinggi, dari perbandingan berpasangan hingga pengambilan sampel berbasis ketidakpastian, serta jelajahi strategi untuk meningkatkan pengumpulan data Anda.

Exercise 1: Metode untuk Mengumpulkan Umpan Balik Berkualitas Tinggi Exercise 2: Memahami perbandingan dan pemberian rating dalam RLHF Exercise 3: Membandingkan slogan untuk kampanye gym Exercise 4: Mengukur kualitas dan relevansi umpan balik Exercise 5: Keyakinan rendah Exercise 6: K-means untuk pengelompokan umpan balik Exercise 7: Active learning Exercise 8: Mengimplementasikan pipeline active learning Exercise 9: Siklus active learning

Dalam Bab ini, Anda akan masuk ke inti pelatihan Reinforcement Learning from Human Feedback. Ini mencakup penjelajahan fine-tuning dengan PPO, teknik untuk melatih secara efisien, dan menangani potensi penyimpangan dari tujuan metrik Anda.

Exercise 1: Menjelajahi reward model Exercise 2: Menginisialisasi reward Exercise 3: Menyiapkan reward trainer Exercise 4: Pelatihan dengan PPO Exercise 5: Inisialisasi pelatih PPO Exercise 6: Penyetelan halus dengan PPO Exercise 7: Fine-tuning yang efisien dalam RLHF Exercise 8: Siapkan untuk Pelatihan 8-bit Exercise 9: Latih dengan LoRA

Jelajahi teknik-teknik kunci untuk menilai dan meningkatkan kinerja model dalam Bab terakhir Reinforcement Learning from Human Feedback (RLHF): mulai dari penyetelan metrik hingga mengintegrasikan beragam sumber umpan balik, Anda akan mendapatkan seperangkat alat komprehensif untuk menyempurnakan model secara efektif.

Exercise 1: Metrik dan penyesuaian model Exercise 2: Mengurangi dampak KL divergence negatif Exercise 3: Memeriksa reward model Exercise 4: Mengintegrasikan beragam sumber umpan balik Exercise 5: Voting mayoritas pada beberapa sumber data Exercise 6: Identifikasi sumber data yang tidak andal Exercise 7: Evaluasi model RLHF Exercise 8: Menafsirkan kurva Exercise 9: Mengevaluasi RLHF dengan metrik Exercise 10: Menutup perjalanan RLHF Anda