1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Przykład worka słów (BoW)

Podczas przeglądów literatury badacze czytają i streszczają jak najwięcej dostępnych tekstów na dany temat. Zdarza się, że trafiają na duplikaty artykułów lub streszczenia tekstów, które już czytali. Masz do dyspozycji 20 artykułów o ropie naftowej zapisanych w obiekcie R o nazwie crude_tibble. Zamiast od razu zagłębiać się w każdy artykuł, postanawiasz najpierw sprawdzić, jakie słowa pojawiają się w wielu z nich. W tym celu zaczniesz od zbudowania reprezentacji tekstu w postaci worka słów (bag-of-words).

Instrukcje

100 XP
  • Utwórz reprezentację BoW, zliczając liczbę słów według artykułu z użyciem kolumny article_id.
  • Korzystając z wyniku, sprawdź, ile unikalnych kombinacji artykuł/słowo zostało utworzonych.
  • Przefiltruj wyniki do wzmianek o 'prices'.
  • W ilu artykułach pojawia się słowo prices?