Aan de slagGa gratis aan de slag

NER met spaCy

Named entity recognition (NER) helpt je om snel belangrijke elementen in een document te herkennen, zoals namen van personen en plaatsen. Het helpt ongestructureerde data te ordenen en cruciale informatie te detecteren, wat essentieel is als je met grote gegevenssets werkt. In deze oefening ga je oefenen met Named Entity Recognition.

en_core_web_sm is als nlp voor je geladen. Drie comments uit de Airline Travel Information System (ATIS)-gegevensset zijn als lijst texts voor je klaargezet.

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Cursus bekijken

Oefeninstructies

  • Stel documents samen: een lijst met alle Doc-containers voor elke tekst in texts met list comprehension.
  • Print voor elke doc-container de tekst van elke entiteit en het bijbehorende label door te itereren over doc.ents.
  • Print de tekst van het zesde token en het entiteitstype van de tweede Doc-container.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Compile a list of all Doc containers of texts
documents = [____ for text in texts]

# Print the entity text and label for the entities in each document
for doc in documents:
    print([(____, ____) for ent in ____])
    
# Print the 6th token's text and entity type of the second document
print("\nText:", documents[1][5].____, "| Entity type: ", documents[1][5].____)
Code bewerken en uitvoeren