1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie języka naturalnego z użyciem spaCy

Connected

ćwiczenie

Przetwarzanie tekstu za pomocą spaCy

Każda aplikacja NLP składa się z kilku kroków przetwarzania tekstu. Poznałeś już niektóre z nich – tokenizację, lematyzację, segmentację zdań oraz rozpoznawanie nazwanych jednostek.

spaCy NLP Pipeline

W tym ćwiczeniu będziesz dalej ćwiczyć kroki przetwarzania tekstu w spaCy – m.in. podział tekstu na zdania i wyodrębnianie nazwanych jednostek. Skorzystasz z pięciu pierwszych recenzji z zestawu danych Amazon Fine Food Reviews. Możesz uzyskać do nich dostęp za pomocą obiektu texts.

Model en_core_web_sm jest już wczytany i dostępny jako nlp. Lista kontenerów Doc dla każdego elementu ze zbioru texts jest również gotowa do użycia pod nazwą documents.

Instrukcje 1/2

undefined XP
    1
    2
  • Utwórz sentences – listę list wszystkich zdań z każdego kontenera doc w zmiennej documents, używając wyrażenia listowego.
  • Wyświetl num_sentences – listę zawierającą liczbę zdań dla każdego kontenera doc, korzystając z metody len().