1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

Tworzenie licznika metodą bag-of-words

W tym ćwiczeniu zbudujesz swój pierwszy (w tym kursie) licznik bag-of-words na podstawie artykułu z Wikipedii, wczytanego wcześniej jako article. Spróbuj odgadnąć temat artykułu bez zaglądania do jego treści! Jeśli chcesz sprawdzić tytuł na końcu, znajdziesz go w zmiennej article_title. Pamiętaj, że tekst artykułu przeszedł bardzo niewielkie przetwarzanie wstępne w porównaniu z surowym wpisem z bazy Wikipedii.

word_tokenize zostało już zaimportowane.

Instrukcje

100 XP
  • Zaimportuj Counter z modułu collections.
  • Użyj word_tokenize(), aby podzielić artykuł na tokeny.
  • Użyj listy składanej ze zmienną iteratora t, aby przekonwertować wszystkie tokeny na małe litery. Metoda .lower() zamienia tekst na małe litery.
  • Utwórz licznik bag-of-words o nazwie bow_simple, używając Counter() z lower_tokens jako argumentem.
  • Wywołaj metodę .most_common() na obiekcie bow_simple, aby wyświetlić 10 najczęściej występujących tokenów.