1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Ćwiczenie z TFIDF

Wcześniej analizowałeś reprezentację bag-of-words artykułów dotyczących ropy naftowej. Obliczanie wartości TFIDF opiera się na tej reprezentacji, ale uwzględnia również to, jak często dane słowo pojawia się w artykule oraz jak często występuje w całej kolekcji artykułów.

Aby sprawdzić, jak istotne są poszczególne słowa przy porównywaniu różnych artykułów, oblicz wagi TFIDF dla słów w zbiorze crude – kolekcji 20 artykułów o ropie naftowej.

Instrukcje

100 XP
  • Oblicz wartości TFIDF dla zbioru crude według article_id i word. Zapisz wynikowy obiekt tibble jako crude_weights.
  • Posortuj crude_weights za pomocą funkcji arrange() malejąco według wartości tf_idf.
  • Przefiltruj crude_weights, aby wyświetlić najniższe niezerowe wartości tf_idf. Ponownie użyj funkcji arrange.