1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Najczęstsze terminy z qdap

Jeśli nie zależy ci na pełnej kontroli nad krokami przetwarzania wstępnego, szybkim sposobem na znalezienie najczęstszych terminów jest funkcja freq_terms() z pakietu qdap.

Funkcja przyjmuje zmienną tekstową – w naszym przypadku jest to wektor tweets$text. Możesz określić liczbę wyświetlanych terminów za pomocą argumentu top, wektor słów stopu do usunięcia za pomocą argumentu stopwords, a minimalną liczbę znaków słowa za pomocą argumentu at.least. Pakiet qdap posiada własną listę słów stopu, która różni się od tej z pakietu tm. W tym ćwiczeniu zobaczysz, jak korzystać z obu list i porównać ich wyniki.

Wizualizacja wyników jest prosta – wywołaj funkcję plot() na obiekcie zwróconym przez freq_terms().

Instrukcje 1/2

undefined XP
  • 1
    • Utwórz obiekt frequency, używając funkcji freq_terms() na tweets$text. Uwzględnij argumenty realizujące następujące założenia:
      • Ogranicz wyniki do 10 najczęstszych terminów.
      • Minimalna długość terminu to trzy litery.
      • Użyj "Top200Words" do zdefiniowania słów stopu.
    • Wygeneruj wykres plot() dla obiektu frequency. Porównaj go z wykresem z poprzedniego ćwiczenia.
  • 2
    • Ponownie utwórz obiekt frequency, używając funkcji freq_terms() na tweets$text. Uwzględnij następujące argumenty:
      • Ogranicz wyniki do 10 najczęstszych terminów.
      • Minimalna długość terminu to trzy litery.
      • Tym razem użyj stopwords("english") do zdefiniowania słów stopu.
    • Wygeneruj wykres plot() dla obiektu frequency. Porównaj go z poprzednim wykresem. Czy zmiana listy słów stopu wpłynęła na wyświetlane słowa?