Menggunakan metrik evaluate
Saatnya mengevaluasi LLM Anda yang mengklasifikasikan interaksi dukungan pelanggan. Melanjutkan dari model yang telah Anda fine-tune, kini Anda akan menggunakan himpunan data validasi baru untuk menilai kinerja model Anda.
Beberapa interaksi beserta label yang sesuai telah dimuat untuk Anda sebagai validate_text dan validate_labels. model dan tokenizer juga telah dimuat.
Latihan ini adalah bagian dari kursus
Pengantar LLM di Python
Petunjuk latihan
- Ekstrak label prediksi dari logits model yang terdapat pada
outputs. - Hitung keempat metrik yang dimuat dengan membandingkan label sebenarnya (
validate_labels) dan label prediksi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))