1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Tokenizace Gettysburského projevu

V tomto cvičení budeš tokenizovat jeden z nejslavnějších projevů v historii: Gettysburský projev amerického prezidenta Abrahama Lincolna proslovený během americké občanské války.

Celý projev je dostupný jako řetězec s názvem gettysburg.

Pokyny

100 XP
  • Načti model en_core_web_sm pomocí spacy.load().
  • Vytvoř objekt Doc s názvem doc pro řetězec gettysburg.
  • Pomocí list comprehension projdi doc a získej texty tokenů.