1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Procvičení předzpracování textu

Teď je řada na tobě – procvič si techniky, které jsi se naučil/a, a připrav text pro lepší výsledky NLP. Budeš potřebovat odstranit stop slova a nealfabetické znaky, provést lemmatizaci a vytvořit nový bag-of-words z vyčištěného textu.

Začínáš se stejnými tokeny, které vznikly v předchozím cvičení: lower_tokens. Třída Counter je už importovaná.

Pokyny

100 XP
  • Importuj třídu WordNetLemmatizer z nltk.stem.
  • Vytvoř seznam alpha_only, který bude obsahovat pouze písmena. Ke kontrole použij metodu .isalpha().
  • Vytvoř další seznam no_stops se slovy z alpha_only, která nejsou obsažena v english_stops.
  • Inicializuj objekt WordNetLemmatizer s názvem wordnet_lemmatizer a jeho metodou .lemmatize() zpracuj tokeny z no_stops – výsledek ulož do nového seznamu lemmatized.
  • Vytvoř nový Counter s názvem bow z lemmatizovaných slov.
  • Nakonec vypiš 10 nejčastějších tokenů.