1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie mowy w Pythonie

Connected

ćwiczenie

Rozpoznawanie nazwanych jednostek w spaCy

Nazwane jednostki to obiekty ze świata rzeczywistego, które mają nazwy – takie jak miasta, osoby, daty czy godziny. Możemy użyć biblioteki spaCy, aby znaleźć nazwane jednostki w transkrybowanym tekście.

W tym ćwiczeniu transkrybujesz plik call_4_channel_2.wav (plik) za pomocą funkcji transcribe_audio(), a następnie użyjesz modelu językowego spaCy – en_core_web_sm – aby przekształcić transkrybowany tekst w dokument spaCy.

Przekształcenie tekstu w dokument spaCy pozwala korzystać z wbudowanych funkcji analizy tekstu tej biblioteki: .text dla tokenów (pojedynczych słów), .sents dla zdań i .ents dla nazwanych jednostek.

Instrukcje 1/4

undefined XP
  • 1
    • Utwórz dokument spaCy (doc), przekazując transkrybowany tekst z kanału 2 rozmowy 4 do funkcji nlp(), a następnie sprawdź jego typ.
  • 2
    • Utwórz dokument spaCy na podstawie zmiennej call_4_channel_2_text, a następnie wydrukuj tekst wszystkich tokenów przy użyciu atrybutu .text.
  • 3
    • Załaduj model językowy "en_core_web_sm", a następnie wydrukuj zdania z dokumentu doc przy użyciu atrybutu .sents.
  • 4
    • Uzyskaj dostęp do jednostek w dokumencie za pomocą .ents, a następnie wydrukuj tekst każdej z nich.