1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Výběr tokenizéru

Který z níže uvedených vzorů je pro následující string nejlepším tokenizérem? Pokud možno chceš zachovat interpunkci vět jako samostatné tokeny, ale '#1' by mělo zůstat jako jeden token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

String je v tvém pracovním prostředí dostupný jako my_string a vzory jsou předem načteny jako pattern1, pattern2, pattern3 a pattern4.

Navíc je z nltk.tokenize importována funkce regexp_tokenize. Pomocí regexp_tokenize(string, pattern) s my_string a jedním ze vzorů jako argumenty můžeš sám/sama experimentovat a zjistit, který tokenizér je nejlepší.

Pokyny

50 XP

Možné odpovědi