IniziaInizia gratis

Rimuovi stop word e spazi aggiuntivi

Un corpus testuale contiene spesso molte parole comuni come "a", "an", "the", "of" e "but". Nell'elaborazione del linguaggio naturale, queste sono chiamate stop word.

Le stop word vengono di solito rimosse durante l'elaborazione del testo per concentrarsi sulle parole più importanti del corpus e trarne informazioni utili.

Inoltre, gli spazi aggiuntivi creati durante la rimozione di caratteri speciali, punteggiatura, numeri e stop word devono essere eliminati dal corpus.

Il corpus che hai creato nell'esercizio precedente è stato caricato come twt_corpus_lwr.

La libreria tm è stata pre-caricata per questo esercizio.

Questo esercizio fa parte del corso

Analisi dei dati dei social media in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)
Modifica ed esegui il codice