Kinerja model pada data Anda
Dalam latihan ini, Anda akan berlatih mengevaluasi model yang sudah ada pada data Anda. Tujuannya adalah meninjau kinerja model pada label entitas tertentu, PRODUCT. Jika model dapat mengklasifikasikan sebagian besar entitas PRODUCT secara akurat (misalnya lebih dari 75%), Anda tidak perlu melatih model pada contoh entitas PRODUCT; jika tidak, pertimbangkan untuk melatih model guna meningkatkan kinerjanya dalam prediksi entitas PRODUCT.
Anda akan menggunakan dua ulasan dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut melalui daftar texts.
Model en_core_web_sm sudah dimuat untuk Anda. Anda dapat mengaksesnya dengan memanggil nlp(). Model tersebut sudah dijalankan pada daftar texts dan documents, yaitu daftar kontainer Doc, tersedia untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Susun daftar
target_entitiesberisi semua entitas untuk tiapdocuments, lalu tambahkan tuple (teks entitas, label entitas) hanya jikaJumboada dalam teks entitas. - Untuk setiap tuple dalam
target_entities, tambahkanTrueke daftarcorrect_labelsjika label entitas (atribut kedua dalam tuple) adalahPRODUCT; jika tidak, tambahkanFalse.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Append a tuple of (entities text, entities label) if Jumbo is in the entity
target_entities = []
for doc in ____:
target_entities.extend([(ent.____, ent.____) for ent in doc.____ if "Jumbo" in ent.text])
print(target_entities)
# Append True to the correct_labels list if the entity label is `PRODUCT`
correct_labels = []
for ent in target_entities:
if ____[1] == "PRODUCT":
correct_labels.append(____)
else:
correct_labels.append(____)
print(correct_labels)