Tutto sulle stop word
Spesso ci sono parole frequenti che però forniscono poche informazioni. Queste sono le cosiddette stop word e potresti volerle rimuovere dalla tua analisi. Alcune comuni stop word inglesi includono "I", "she'll", "the", ecc. Nel pacchetto tm ci sono 174 comuni stop word inglesi (le stamperai in questo esercizio!).
Quando conduci un'analisi, probabilmente dovrai aggiungere parole a questa lista. Nel nostro esempio dei tweet sul caffè, tutti i tweet contengono "coffee", quindi è importante eliminare quella parola oltre alle stop word comuni. Lasciare "coffee" non aggiunge alcuna informazione e la farà pesare troppo in un'analisi di frequenza.
Usare la funzione c() ti permette di aggiungere nuove parole all'elenco delle stop word. Ad esempio, quanto segue aggiungerebbe "word1" e "word2" all'elenco predefinito di stop word inglesi:
all_stops <- c("word1", "word2", stopwords("en"))
Una volta che hai una lista di stop word sensata, userai la funzione removeWords() sul tuo testo. removeWords() accetta due argomenti: l'oggetto text a cui si applica e la lista di parole da rimuovere.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Rivedi le stop word standard chiamando
stopwords("en"). - Rimuovi le stop word "en" da
text. - Aggiungi "coffee" e "bean" alle stop word standard, assegnando a
new_stops. - Rimuovi le stop word personalizzate,
new_stops, datext.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___