1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Wybór tokenizatora

Dla poniższego ciągu znaków wskaż wzorzec, który najlepiej sprawdzi się jako tokenizator. Zależy ci na tym, aby znaki interpunkcyjne zdania pozostały oddzielnymi tokenami, a '#1' było traktowane jako jeden token.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Ciąg znaków jest dostępny w twoim środowisku jako my_string, a wzorce zostały wstępnie załadowane odpowiednio jako pattern1, pattern2, pattern3 i pattern4.

Funkcja regexp_tokenize została zaimportowana z nltk.tokenize. Możesz wywołać regexp_tokenize(string, pattern) z my_string i wybranym wzorcem jako argumentami, aby samodzielnie sprawdzić, który tokenizator działa najlepiej.

Instrukcje

50 XP

Możliwe odpowiedzi