1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Czyszczenie wpisu blogowego

W tym ćwiczeniu otrzymujesz fragment wpisu blogowego. Twoim zadaniem jest przekształcenie tego tekstu do formatu bardziej przyjaznego dla maszyny. Proces ten obejmuje konwersję na małe litery, lematyzację oraz usunięcie stopwords, znaków interpunkcyjnych i znaków niealfabetycznych.

Fragment jest dostępny jako string blog i został wypisany w konsoli. Lista stopwords jest dostępna jako stopwords.

Instrukcje

100 XP
  • Używając list comprehension, przejdź pętlą przez doc, aby wyodrębnić lemma_ każdego tokenu.
  • Usuń stopwords i tokeny niealfabetyczne, korzystając z stopwords i isalpha().