Erkennung benannter Entitäten in spaCy
Benannte Entitäten sind Objekte aus der realen Welt mit Eigennamen, zum Beispiel Städte, Personen, Datums- oder Zeitangaben. Mit spaCy können wir benannte Entitäten in unserem transkribierten Text finden.
In dieser Übung transkribierst du call_4_channel_2.wav (file) mit transcribe_audio() und verwendest anschließend das Sprachmodell von spaCy, en_core_web_sm, um den transkribierten Text in ein spaCy-Doc umzuwandeln.
Die Umwandlung von Text in ein spaCy-Doc erlaubt es uns, die integrierten Analysefunktionen von spaCy zu nutzen, zum Beispiel .text für Tokens (einzelne Wörter), .sents für Sätze und .ents für benannte Entitäten.
Diese Übung ist Teil des Kurses
<Kurs>Verarbeitung gesprochener Sprache in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
import spacy
# Transcribe call 4 channel 2
call_4_channel_2_text = transcribe_audio("call_4_channel_2.wav")
# Create a spaCy language model instance
nlp = spacy.load("en_core_web_sm")
# Create a spaCy doc with call 4 channel 2 text
doc = nlp(____)
# Check the type of doc
print(type(___))