1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Čištění příspěvku na blogu

V tomto cvičení máš k dispozici úryvek z příspěvku na blogu. Tvým úkolem je převést tento text do formátu vhodnějšího pro zpracování počítačem. To zahrnuje převod na malá písmena, lemmatizaci a odstranění stopwords, interpunkce a nealfabetických znaků.

Úryvek je dostupný jako řetězec blog a byl vypsán do konzole. Seznam stopwords je dostupný jako stopwords.

Pokyny

100 XP
  • Pomocí list comprehension projdi doc a extrahuj lemma_ každého tokenu.
  • Odstraň stopwords a nealfabetické tokeny pomocí stopwords a isalpha().