Voting mayoritas pada beberapa sumber data

Tim Anda sedang mengembangkan model AI untuk secara otomatis menghasilkan laporan quality control (QC) smartphone. Untuk itu, Anda telah mengumpulkan data preferensi dari tiga sumber quality control yang berbeda — "Automated Vision System", "Human Inspector", dan "Customer Feedback". Masing-masing telah memberi label pasangan cuplikan teks sebagai 'chosen' dan 'rejected'. Setiap pasangan memiliki 'id' unik, dan setiap entri menampilkan ulasan QC yang dipilih.

quality_df adalah DataFrame gabungan yang dimuat menggunakan pandas. Himpunan data ini memuat data dari ketiga sumber tersebut. Selain itu, kelas Counter telah diimpor sebelumnya dari modul collections.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Instruksi latihan

Hitung frekuensi kemunculan setiap pasangan (chosen, rejected) dalam fungsi vote.
Temukan pasangan (chosen, rejected) dengan jumlah suara tertinggi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini memperkenalkan dasar-dasar Reinforcement Learning with Human Feedback (RLHF), sebuah teknik yang menggunakan masukan manusia untuk membantu model AI belajar lebih efektif. Mulailah dengan RLHF dengan memahami perbedaannya dari reinforcement learning tradisional dan mengapa umpan balik manusia dapat meningkatkan kinerja AI di berbagai domain.

Exercise 1: Pengantar RLHF Exercise 2: Generasi teks dengan RLHF Exercise 3: Mengklasifikasikan teks yang dihasilkan untuk RLHF Exercise 4: RL vs. RLHF Exercise 5: Menjelajahi LLM pralatih Exercise 6: Tokenisasi himpunan data teks Exercise 7: Fine-tuning untuk klasifikasi ulasan Exercise 8: Menyiapkan data untuk RLHF Exercise 9: Menyiapkan himpunan data preferensi Exercise 10: Mengekstrak prompt

Pelajari cara menyiapkan sistem untuk mengumpulkan umpan balik manusia dalam Bab ini. Kuasai praktik terbaik untuk mengumpulkan data berkualitas tinggi, dari perbandingan berpasangan hingga pengambilan sampel berbasis ketidakpastian, serta jelajahi strategi untuk meningkatkan pengumpulan data Anda.

Exercise 1: Metode untuk Mengumpulkan Umpan Balik Berkualitas Tinggi Exercise 2: Memahami perbandingan dan pemberian rating dalam RLHF Exercise 3: Membandingkan slogan untuk kampanye gym Exercise 4: Mengukur kualitas dan relevansi umpan balik Exercise 5: Keyakinan rendah Exercise 6: K-means untuk pengelompokan umpan balik Exercise 7: Active learning Exercise 8: Mengimplementasikan pipeline active learning Exercise 9: Siklus active learning

Dalam Bab ini, Anda akan masuk ke inti pelatihan Reinforcement Learning from Human Feedback. Ini mencakup penjelajahan fine-tuning dengan PPO, teknik untuk melatih secara efisien, dan menangani potensi penyimpangan dari tujuan metrik Anda.

Exercise 1: Menjelajahi reward model Exercise 2: Menginisialisasi reward Exercise 3: Menyiapkan reward trainer Exercise 4: Pelatihan dengan PPO Exercise 5: Inisialisasi pelatih PPO Exercise 6: Penyetelan halus dengan PPO Exercise 7: Fine-tuning yang efisien dalam RLHF Exercise 8: Siapkan untuk Pelatihan 8-bit Exercise 9: Latih dengan LoRA

Jelajahi teknik-teknik kunci untuk menilai dan meningkatkan kinerja model dalam Bab terakhir Reinforcement Learning from Human Feedback (RLHF): mulai dari penyetelan metrik hingga mengintegrasikan beragam sumber umpan balik, Anda akan mendapatkan seperangkat alat komprehensif untuk menyempurnakan model secara efektif.

Exercise 1: Metrik dan penyesuaian model Exercise 2: Mengurangi dampak KL divergence negatif Exercise 3: Memeriksa reward model Exercise 4: Mengintegrasikan beragam sumber umpan balik Exercise 5: Voting mayoritas pada beberapa sumber data

Latihan Saat Ini

Exercise 6: Identifikasi sumber data yang tidak andal Exercise 7: Evaluasi model RLHF Exercise 8: Menafsirkan kurva Exercise 9: Mengevaluasi RLHF dengan metrik Exercise 10: Menutup perjalanan RLHF Anda