Rozpoznawanie nazwanych jednostek w spaCy

Nazwane jednostki to obiekty ze świata rzeczywistego, które mają nazwy – takie jak miasta, osoby, daty czy godziny. Możemy użyć biblioteki spaCy, aby znaleźć nazwane jednostki w transkrybowanym tekście.

W tym ćwiczeniu transkrybujesz plik call_4_channel_2.wav (plik) za pomocą funkcji transcribe_audio(), a następnie użyjesz modelu językowego spaCy – en_core_web_sm – aby przekształcić transkrybowany tekst w dokument spaCy.

Przekształcenie tekstu w dokument spaCy pozwala korzystać z wbudowanych funkcji analizy tekstu tej biblioteki: .text dla tokenów (pojedynczych słów), .sents dla zdań i .ents dla nazwanych jednostek.

1
- Utwórz dokument spaCy (doc), przekazując transkrybowany tekst z kanału 2 rozmowy 4 do funkcji nlp(), a następnie sprawdź jego typ.

2
- Utwórz dokument spaCy na podstawie zmiennej call_4_channel_2_text, a następnie wydrukuj tekst wszystkich tokenów przy użyciu atrybutu .text.
3
- Załaduj model językowy "en_core_web_sm", a następnie wydrukuj zdania z dokumentu doc przy użyciu atrybutu .sents.
4
- Uzyskaj dostęp do jednostek w dokumencie za pomocą .ents, a następnie wydrukuj tekst każdej z nich.

ćwiczenie

Rozpoznawanie nazwanych jednostek w spaCy

Instrukcje 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/4

ćwiczenie