Przetwarzanie tekstu za pomocą spaCy

Każda aplikacja NLP składa się z kilku kroków przetwarzania tekstu. Poznałeś już niektóre z nich – tokenizację, lematyzację, segmentację zdań oraz rozpoznawanie nazwanych jednostek.

spaCy NLP Pipeline

W tym ćwiczeniu będziesz dalej ćwiczyć kroki przetwarzania tekstu w spaCy – m.in. podział tekstu na zdania i wyodrębnianie nazwanych jednostek. Skorzystasz z pięciu pierwszych recenzji z zestawu danych Amazon Fine Food Reviews. Możesz uzyskać do nich dostęp za pomocą obiektu texts.

Model en_core_web_sm jest już wczytany i dostępny jako nlp. Lista kontenerów Doc dla każdego elementu ze zbioru texts jest również gotowa do użycia pod nazwą documents.

Utwórz sentences – listę list wszystkich zdań z każdego kontenera doc w zmiennej documents, używając wyrażenia listowego.
Wyświetl num_sentences – listę zawierającą liczbę zdań dla każdego kontenera doc, korzystając z metody len().

ćwiczenie

Przetwarzanie tekstu za pomocą spaCy

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie