1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Zpracování mluveného jazyka v Pythonu

Connected

cvičení

Rozpoznávání pojmenovaných entit v spaCy

Pojmenované entity jsou objekty reálného světa, které mají název – například města, osoby, data nebo časy. Ke hledání pojmenovaných entit v přepisech textu můžeme využít spaCy.

V tomto cvičení přepíšeš call_4_channel_2.wav (soubor) pomocí transcribe_audio() a pak použiješ jazykový model spaCy – en_core_web_sm – k převodu přepsaného textu na spaCy doc.

Převedení textu na spaCy doc ti umožní využít vestavěné funkce spaCy pro analýzu textu: .text pro tokeny (jednotlivá slova), .sents pro věty a .ents pro pojmenované entity.

Instrukce 1/4

undefined XP
  • 1
    • Vytvoř spaCy doc tak, že předáš přepsaný text z kanálu 2 hovoru 4 funkci nlp(), a pak zkontroluj jeho typ.
  • 2
    • Vytvoř spaCy doc z call_4_channel_2_text a pak vypiš text všech tokenů pomocí atributu .text.
  • 3
    • Načti jazykový model "en_core_web_sm" a pak vypiš věty v doc pomocí atributu .sents.
  • 4
    • Přistup k entitám v doc pomocí .ents a pak vypiš text každé z nich.