Rimuovi stop word e spazi aggiuntivi
Un corpus testuale contiene spesso molte parole comuni come "a", "an", "the", "of" e "but". Nell'elaborazione del linguaggio naturale, queste sono chiamate stop word.
Le stop word vengono di solito rimosse durante l'elaborazione del testo per concentrarsi sulle parole più importanti del corpus e trarne informazioni utili.
Inoltre, gli spazi aggiuntivi creati durante la rimozione di caratteri speciali, punteggiatura, numeri e stop word devono essere eliminati dal corpus.
Il corpus che hai creato nell'esercizio precedente è stato caricato come twt_corpus_lwr.
La libreria tm è stata pre-caricata per questo esercizio.
Questo esercizio fa parte del corso
Analisi dei dati dei social media in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)