Najczęstsze terminy z qdap

Jeśli nie zależy ci na pełnej kontroli nad krokami przetwarzania wstępnego, szybkim sposobem na znalezienie najczęstszych terminów jest funkcja freq_terms() z pakietu qdap.

Funkcja przyjmuje zmienną tekstową – w naszym przypadku jest to wektor tweets$text. Możesz określić liczbę wyświetlanych terminów za pomocą argumentu top, wektor słów stopu do usunięcia za pomocą argumentu stopwords, a minimalną liczbę znaków słowa za pomocą argumentu at.least. Pakiet qdap posiada własną listę słów stopu, która różni się od tej z pakietu tm. W tym ćwiczeniu zobaczysz, jak korzystać z obu list i porównać ich wyniki.

Wizualizacja wyników jest prosta – wywołaj funkcję plot() na obiekcie zwróconym przez freq_terms().

1
- Utwórz obiekt frequency, używając funkcji freq_terms() na tweets$text. Uwzględnij argumenty realizujące następujące założenia:
  
  Ogranicz wyniki do 10 najczęstszych terminów.
  
  Minimalna długość terminu to trzy litery.
  
  Użyj "Top200Words" do zdefiniowania słów stopu.
- Wygeneruj wykres plot() dla obiektu frequency. Porównaj go z wykresem z poprzedniego ćwiczenia.

2
- Ponownie utwórz obiekt frequency, używając funkcji freq_terms() na tweets$text. Uwzględnij następujące argumenty:
  
  Ogranicz wyniki do 10 najczęstszych terminów.
  
  Minimalna długość terminu to trzy litery.
  
  Tym razem użyj stopwords("english") do zdefiniowania słów stopu.
- Wygeneruj wykres plot() dla obiektu frequency. Porównaj go z poprzednim wykresem. Czy zmiana listy słów stopu wpłynęła na wyświetlane słowa?

ćwiczenie

Najczęstsze terminy z qdap

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie