1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie głębokie dla tekstu z PyTorch

Connected

ćwiczenie

Analiza częstości słów

Gratulacje! Właśnie dołączyłeś do PyBooks. PyBooks tworzy system rekomendacji książek i chce wykrywać wzorce oraz trendy w tekstach, aby poprawiać jakość rekomendacji.

Na początek warto poznać częstość występowania słów w danym tekście i usunąć te rzadkie.

Pamiętaj, że typowe zbiory danych w rzeczywistych projektach będą większe niż ten przykład.

Instrukcje

100 XP
  • Zaimportuj get_tokenizer z biblioteki torchtext oraz FreqDist z biblioteki nltk.
  • Zainicjalizuj tokenizer dla języka angielskiego i przeprowadź tokenizację podanego tekstu text.
  • Oblicz rozkład częstości dla tokens i usuń rzadkie słowa, korzystając z wyrażenia listowego.