NER dengan spaCy
Named entity recognition (NER) membantu Anda mengidentifikasi elemen kunci dari sebuah dokumen, seperti nama orang dan tempat. Ini membantu menyusun data tidak terstruktur dan mendeteksi informasi penting, yang krusial saat Anda menangani himpunan data berukuran besar. Pada latihan ini, Anda akan berlatih Named Entity Recognition.
en_core_web_sm telah dimuat untuk Anda sebagai nlp. Tiga komentar dari himpunan data Airline Travel Information System (ATIS) telah disediakan untuk Anda dalam sebuah list bernama texts.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Susun
documents, sebuah list berisi semua kontainerDocuntuk setiap teks dalamtextsmenggunakan list comprehension. - Untuk setiap kontainer
doc, cetak teks tiap entitas dan label yang sesuai dengan melakukan iterasi melaluidoc.ents. - Cetak teks token keenam, dan tipe entitas dari kontainer
Dockedua.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Compile a list of all Doc containers of texts
documents = [____ for text in texts]
# Print the entity text and label for the entities in each document
for doc in documents:
print([(____, ____) for ent in ____])
# Print the 6th token's text and entity type of the second document
print("\nText:", documents[1][5].____, "| Entity type: ", documents[1][5].____)