1. 学ぶ
  2. /
  3. コース
  4. /
  5. Przetwarzanie języka naturalnego z użyciem spaCy

Connected

演習

RegEx z EntityRuler w spaCy

Wyrażenia regularne (RegEx) służą do ekstrakcji informacji na podstawie reguł i złożonych wzorców dopasowywania ciągów tekstowych. Za pomocą RegEx można wyszukiwać wzorce w tekście lub zastępować pasujące fragmenty innymi ciągami. W tym ćwiczeniu przećwiczysz użycie komponentu EntityRuler w bibliotece spaCy do wyszukiwania adresów e-mail w podanym tekście (text).

Pakiet spaCy jest już zaimportowany. Do dopasowywania cyfr od 0 do 9 możesz użyć metaznaku \d.

Wzorzec w spaCy może używać atrybutu REGEX. W takim przypadku wzorzec ma postać: [{"TEXT": {"REGEX": "<dany wzorzec>"}}].

指示

100 XP
  • Zdefiniuj wzorzec dopasowujący numery telefonów w formacie 8888888888, który będzie używany przez komponent EntityRuler.
  • Wczytaj pusty model spaCy dla języka angielskiego i dodaj do potoku komponent EntityRuler.
  • Dodaj skompilowany wzorzec do komponentu EntityRuler.
  • Uruchom model i wypisz krotki zawierające tekst oraz typ encji dla podanego text.