Procvičení předzpracování textu

Teď je řada na tobě – procvič si techniky, které jsi se naučil/a, a připrav text pro lepší výsledky NLP. Budeš potřebovat odstranit stop slova a nealfabetické znaky, provést lemmatizaci a vytvořit nový bag-of-words z vyčištěného textu.

Začínáš se stejnými tokeny, které vznikly v předchozím cvičení: lower_tokens. Třída Counter je už importovaná.

Importuj třídu WordNetLemmatizer z nltk.stem.
Vytvoř seznam alpha_only, který bude obsahovat pouze písmena. Ke kontrole použij metodu .isalpha().
Vytvoř další seznam no_stops se slovy z alpha_only, která nejsou obsažena v english_stops.
Inicializuj objekt WordNetLemmatizer s názvem wordnet_lemmatizer a jeho metodou .lemmatize() zpracuj tokeny z no_stops – výsledek ulož do nového seznamu lemmatized.
Vytvoř nový Counter s názvem bow z lemmatizovaných slov.
Nakonec vypiš 10 nejčastějších tokenů.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení