Przykład błędnej analizy tekstu

Na początku omawialiśmy znaczenie usuwania stop-słów przed przystąpieniem do analizy tekstu. W ostatnim rozdziale poznałeś/aś zastosowanie podobieństwa cosinusowego do identyfikowania podobnych tekstów.

W tym ćwiczeniu sprawdzisz, jak łatwo popełnić błąd w analizie tekstu. Obliczysz podobieństwa cosinusowe dla rozdziałów książki Folwark zwierzęcy – bez usuwania stop-słów.

Przejrzyj dostarczony kod służący do zliczania słów. Ten krok jest już dla ciebie gotowy.
Używając funkcji pairwise_similarity() z pakietu widyr, oblicz podobieństwa cosinusowe dla każdego rozdziału w kolumnie chapter.
Posortuj wyniki od najwyższych wartości similarity.
Oblicz średnią (mean) wartości similarity.

ćwiczenie

Przykład błędnej analizy tekstu

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie