NER bahasa Spanyol dengan polyglot
Anda akan melanjutkan eksplorasi polyglot dengan anotasi dalam bahasa Spanyol. Artikel ini tidak ditulis oleh surat kabar, sehingga ini adalah contoh pertama Anda dari teks yang lebih mirip blog. Menurut Anda, bagaimana hal itu memengaruhi pencarian entitas?
Objek Text telah dibuat sebagai txt, dan setiap entitas telah dicetak, seperti yang dapat Anda lihat di IPython Shell.
Tugas khusus Anda adalah menentukan berapa banyak entitas yang memuat kata "Márquez" atau "Gabo" — keduanya merujuk pada orang yang sama dengan cara berbeda!
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Iterasikan semua entitas dari
txt, gunakanentsebagai variabel iterator. - Periksa apakah entitas memuat
"Márquez"atau"Gabo". Jika ya, tingkatkancount. Jangan lupa menyertakan huruf beraksenádalam"Márquez"! - Klik 'Kirim Jawaban' untuk melihat berapa persen entitas yang merujuk pada Gabriel García Márquez (alias Gabo).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize the count variable: count
count = 0
# Iterate over all the entities
____
# Check whether the entity contains 'Márquez' or 'Gabo'
____
# Increment count
____
# Print count
print(count)
# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)