Ćwiczenie z preprocessingu tekstu

Czas zastosować poznane techniki w praktyce – oczyścisz tekst, by uzyskać lepsze wyniki analizy NLP. Usuń stop słowa i znaki niebędące literami, przeprowadź lematyzację, a następnie utwórz nowy model bag-of-words na oczyszczonym tekście.

Punktm wyjścia są tokeny lower_tokens utworzone w poprzednim ćwiczeniu. Klasa Counter jest już zaimportowana.

Zaimportuj klasę WordNetLemmatizer z nltk.stem.
Utwórz listę alpha_only zawierającą wyłącznie znaki alfabetyczne. Użyj metody .isalpha(), aby to sprawdzić.
Utwórz kolejną listę no_stops złożoną ze słów z alpha_only, które nie występują w english_stops.
Utwórz obiekt WordNetLemmatizer o nazwie wordnet_lemmatizer i użyj jego metody .lemmatize() na tokenach z no_stops, aby uzyskać nową listę lemmatized.
Utwórz nowy obiekt Counter o nazwie bow na podstawie zlematyzowanych słów.
Na końcu wyświetl 10 najczęściej występujących tokenów.

ćwiczenie

Ćwiczenie z preprocessingu tekstu

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie