K-means untuk pengelompokan umpan balik

Anda memiliki himpunan data berisi respons umpan balik, dan Anda telah menggunakan model GPT untuk menghitung skor keyakinan untuk setiap respons. Untuk mengidentifikasi umpan balik yang tidak biasa atau outlier, Anda menerapkan pengelompokan k-means pada respons dengan keyakinan rendah.

Algoritma KMeans, variabel reviews dan confidences, serta pustaka np telah dimuat sebelumnya.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Instruksi latihan

Inisialisasi algoritma k-means. Atur random_state ke 42 untuk reprodusibilitas kode.
Hitung jarak dari pusat klaster untuk mengidentifikasi outlier sebagai selisih antara data dan pusat klaster yang bersesuaian.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def detect_anomalies(data, n_clusters=3):
    # Initialize k-means
    ____
    clusters = kmeans.fit_predict(data)
    centers = kmeans.cluster_centers_

    # Calculate distances from cluster centers
    ____
    return distances
  
anomalies = detect_anomalies(confidences)
print(anomalies)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Bab ini memperkenalkan dasar-dasar Reinforcement Learning with Human Feedback (RLHF), sebuah teknik yang menggunakan masukan manusia untuk membantu model AI belajar lebih efektif. Mulailah dengan RLHF dengan memahami perbedaannya dari reinforcement learning tradisional dan mengapa umpan balik manusia dapat meningkatkan kinerja AI di berbagai domain.

Exercise 1: Pengantar RLHF Exercise 2: Generasi teks dengan RLHF Exercise 3: Mengklasifikasikan teks yang dihasilkan untuk RLHF Exercise 4: RL vs. RLHF Exercise 5: Menjelajahi LLM pralatih Exercise 6: Tokenisasi himpunan data teks Exercise 7: Fine-tuning untuk klasifikasi ulasan Exercise 8: Menyiapkan data untuk RLHF Exercise 9: Menyiapkan himpunan data preferensi Exercise 10: Mengekstrak prompt

Pelajari cara menyiapkan sistem untuk mengumpulkan umpan balik manusia dalam Bab ini. Kuasai praktik terbaik untuk mengumpulkan data berkualitas tinggi, dari perbandingan berpasangan hingga pengambilan sampel berbasis ketidakpastian, serta jelajahi strategi untuk meningkatkan pengumpulan data Anda.

Exercise 1: Metode untuk Mengumpulkan Umpan Balik Berkualitas Tinggi Exercise 2: Memahami perbandingan dan pemberian rating dalam RLHF Exercise 3: Membandingkan slogan untuk kampanye gym Exercise 4: Mengukur kualitas dan relevansi umpan balik Exercise 5: Keyakinan rendah Exercise 6: K-means untuk pengelompokan umpan balik

Latihan Saat Ini

Exercise 7: Active learning Exercise 8: Mengimplementasikan pipeline active learning Exercise 9: Siklus active learning

Dalam Bab ini, Anda akan masuk ke inti pelatihan Reinforcement Learning from Human Feedback. Ini mencakup penjelajahan fine-tuning dengan PPO, teknik untuk melatih secara efisien, dan menangani potensi penyimpangan dari tujuan metrik Anda.

Exercise 1: Menjelajahi reward model Exercise 2: Menginisialisasi reward Exercise 3: Menyiapkan reward trainer Exercise 4: Pelatihan dengan PPO Exercise 5: Inisialisasi pelatih PPO Exercise 6: Penyetelan halus dengan PPO Exercise 7: Fine-tuning yang efisien dalam RLHF Exercise 8: Siapkan untuk Pelatihan 8-bit Exercise 9: Latih dengan LoRA

Jelajahi teknik-teknik kunci untuk menilai dan meningkatkan kinerja model dalam Bab terakhir Reinforcement Learning from Human Feedback (RLHF): mulai dari penyetelan metrik hingga mengintegrasikan beragam sumber umpan balik, Anda akan mendapatkan seperangkat alat komprehensif untuk menyempurnakan model secara efektif.

Exercise 1: Metrik dan penyesuaian model Exercise 2: Mengurangi dampak KL divergence negatif Exercise 3: Memeriksa reward model Exercise 4: Mengintegrasikan beragam sumber umpan balik Exercise 5: Voting mayoritas pada beberapa sumber data Exercise 6: Identifikasi sumber data yang tidak andal Exercise 7: Evaluasi model RLHF Exercise 8: Menafsirkan kurva Exercise 9: Mengevaluasi RLHF dengan metrik Exercise 10: Menutup perjalanan RLHF Anda