1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Ćwiczenie z preprocessingu tekstu

Czas zastosować poznane techniki w praktyce – oczyścisz tekst, by uzyskać lepsze wyniki analizy NLP. Usuń stop słowa i znaki niebędące literami, przeprowadź lematyzację, a następnie utwórz nowy model bag-of-words na oczyszczonym tekście.

Punktm wyjścia są tokeny lower_tokens utworzone w poprzednim ćwiczeniu. Klasa Counter jest już zaimportowana.

Instrukcje

100 XP
  • Zaimportuj klasę WordNetLemmatizer z nltk.stem.
  • Utwórz listę alpha_only zawierającą wyłącznie znaki alfabetyczne. Użyj metody .isalpha(), aby to sprawdzić.
  • Utwórz kolejną listę no_stops złożoną ze słów z alpha_only, które nie występują w english_stops.
  • Utwórz obiekt WordNetLemmatizer o nazwie wordnet_lemmatizer i użyj jego metody .lemmatize() na tokenach z no_stops, aby uzyskać nową listę lemmatized.
  • Utwórz nowy obiekt Counter o nazwie bow na podstawie zlematyzowanych słów.
  • Na końcu wyświetl 10 najczęściej występujących tokenów.