NER met spaCy
Named entity recognition (NER) helpt je om snel belangrijke elementen in een document te herkennen, zoals namen van personen en plaatsen. Het helpt ongestructureerde data te ordenen en cruciale informatie te detecteren, wat essentieel is als je met grote gegevenssets werkt. In deze oefening ga je oefenen met Named Entity Recognition.
en_core_web_sm is als nlp voor je geladen. Drie comments uit de Airline Travel Information System (ATIS)-gegevensset zijn als lijst texts voor je klaargezet.
Deze oefening maakt deel uit van de cursus
Natural Language Processing met spaCy
Oefeninstructies
- Stel
documentssamen: een lijst met alleDoc-containers voor elke tekst intextsmet list comprehension. - Print voor elke
doc-container de tekst van elke entiteit en het bijbehorende label door te itereren overdoc.ents. - Print de tekst van het zesde token en het entiteitstype van de tweede
Doc-container.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Compile a list of all Doc containers of texts
documents = [____ for text in texts]
# Print the entity text and label for the entities in each document
for doc in documents:
print([(____, ____) for ent in ____])
# Print the 6th token's text and entity type of the second document
print("\nText:", documents[1][5].____, "| Entity type: ", documents[1][5].____)