Termini frequenti con qdap

Se sei d'accordo a rinunciare a un po' di controllo sui passaggi esatti di preprocessing, un modo rapido per ottenere i termini frequenti è usare freq_terms() da qdap.

La funzione accetta una variabile testuale che, nel nostro caso, è il vettore tweets$text. Puoi specificare il numero massimo di termini da mostrare con l'argomento top, un vettore di stop word da rimuovere con l'argomento stopwords e la lunghezza minima in caratteri di una parola da includere con l'argomento at.least. qdap ha un proprio elenco di stop word, diverso da quello di tm. In questo esercizio vedrai come usare entrambi e confrontare i risultati.

Creare un grafico di base dei risultati è semplice: ti basta chiamare plot() sull'oggetto restituito da freq_terms().

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart

Modifica ed esegui il codice