1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Przykład błędnej analizy tekstu

Na początku omawialiśmy znaczenie usuwania stop-słów przed przystąpieniem do analizy tekstu. W ostatnim rozdziale poznałeś/aś zastosowanie podobieństwa cosinusowego do identyfikowania podobnych tekstów.

W tym ćwiczeniu sprawdzisz, jak łatwo popełnić błąd w analizie tekstu. Obliczysz podobieństwa cosinusowe dla rozdziałów książki Folwark zwierzęcy – bez usuwania stop-słów.

Instrukcje

100 XP
  • Przejrzyj dostarczony kod służący do zliczania słów. Ten krok jest już dla ciebie gotowy.
  • Używając funkcji pairwise_similarity() z pakietu widyr, oblicz podobieństwa cosinusowe dla każdego rozdziału w kolumnie chapter.
  • Posortuj wyniki od najwyższych wartości similarity.
  • Oblicz średnią (mean) wartości similarity.