Stop słowa – wszystko, co warto wiedzieć

W każdym tekście pojawiają się słowa, które są częste, ale niosą mało informacji. Nazywamy je stop słowami i zazwyczaj warto je usunąć przed analizą. Do typowych angielskich stop słów należą m.in. „I", „she'll", „the". Pakiet tm zawiera gotową listę 174 popularnych angielskich stop słów – wyświetlisz ją w tym ćwiczeniu!

W praktyce często trzeba tę listę rozszerzyć. W naszym przykładzie z tweetami o kawie każdy tweet zawiera słowo „coffee", dlatego warto je usunąć obok standardowych stop słów. Pozostawienie go w tekście nie wnosi żadnej wartości analitycznej i spowoduje jego nadmierne uwypuklenie w analizie częstości.

Funkcja c() pozwala dodać nowe wyrazy do listy stop słów. Na przykład poniższy kod doda „word1" i „word2" do domyślnej listy angielskich stop słów:

all_stops <- c("word1", "word2", stopwords("en"))

Gdy lista stop słów będzie gotowa, użyj funkcji removeWords(), aby usunąć je z tekstu. Funkcja removeWords() przyjmuje dwa argumenty: obiekt text, na którym operuje, oraz listę wyrazów do usunięcia.

Wyświetl standardowe stop słowa, wywołując stopwords("en").
Usuń stop słowa języka angielskiego („en") z obiektu text.
Dodaj „coffee" i „bean" do standardowej listy stop słów i przypisz wynik do zmiennej new_stops.
Usuń niestandardowe stop słowa new_stops z obiektu text.

Egzersiz

Stop słowa – wszystko, co warto wiedzieć

Talimatlar

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Egzersiz

Talimatlar

Egzersiz