1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie języka naturalnego z użyciem spaCy

Connected

ćwiczenie

Lematyzacja w spaCy

W tym ćwiczeniu przećwiczysz lematyzację. Lematyzacja pomaga wyznaczać formę podstawową słów pochodnych. Oznacza to, że dla dowolnego zdania liczba lematów jest mniejsza lub równa liczbie tokenów.

Pierwsza recenzja produktu spożywczego z Amazona jest dostępna w zmiennej text. Model en_core_web_sm jest załadowany jako nlp i został już uruchomiony na zmiennej text, tworząc document – kontener Doc dla tego tekstu.

Lista tokens zawierająca tokeny dla text jest również już załadowana i gotowa do użycia.

Instrukcje

100 XP
  • Dodaj lematę każdego tokenu z document do listy, a następnie wydrukuj listę lemmas.
  • Wydrukuj listę tokens i porównaj różnice między tokens a lemmas.