1. Öğren
  2. /
  3. Kurs
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

Egzersiz

Stop słowa – wszystko, co warto wiedzieć

W każdym tekście pojawiają się słowa, które są częste, ale niosą mało informacji. Nazywamy je stop słowami i zazwyczaj warto je usunąć przed analizą. Do typowych angielskich stop słów należą m.in. „I", „she'll", „the". Pakiet tm zawiera gotową listę 174 popularnych angielskich stop słów – wyświetlisz ją w tym ćwiczeniu!

W praktyce często trzeba tę listę rozszerzyć. W naszym przykładzie z tweetami o kawie każdy tweet zawiera słowo „coffee", dlatego warto je usunąć obok standardowych stop słów. Pozostawienie go w tekście nie wnosi żadnej wartości analitycznej i spowoduje jego nadmierne uwypuklenie w analizie częstości.

Funkcja c() pozwala dodać nowe wyrazy do listy stop słów. Na przykład poniższy kod doda „word1" i „word2" do domyślnej listy angielskich stop słów:

all_stops <- c("word1", "word2", stopwords("en"))

Gdy lista stop słów będzie gotowa, użyj funkcji removeWords(), aby usunąć je z tekstu. Funkcja removeWords() przyjmuje dwa argumenty: obiekt text, na którym operuje, oraz listę wyrazów do usunięcia.

Talimatlar

100 XP
  • Wyświetl standardowe stop słowa, wywołując stopwords("en").
  • Usuń stop słowa języka angielskiego („en") z obiektu text.
  • Dodaj „coffee" i „bean" do standardowej listy stop słów i przypisz wynik do zmiennej new_stops.
  • Usuń niestandardowe stop słowa new_stops z obiektu text.