Stop words e word cloud
Ora che sei nel giusto mindset per il text mining, seduto con un buon bicchiere di chardonnay, dobbiamo andare più a fondo. Nell’ultima word cloud, "chardonnay" dominava la visualizzazione. Era così dominante che non riuscivi a cogliere altri spunti interessanti.
Modifichiamo le stop words per includere "chardonnay" e vedere quali altre parole sono comuni, ma in precedenza erano state coperte.
Nel tuo ambiente di lavoro c’è una versione pulita dei tweet su chardonnay, ma ora rimuoviamo alcuni termini poco informativi. Questo esercizio usa content() per mostrarti un tweet specifico per confronto. Ricorda di usare le doppie parentesi per indicizzare la lista del corpus.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Applica
content()al 24º documento inchardonnay_corp. - Aggiungi
"chardonnay"alle stopwords in inglese, assegnando il risultato astops. - Esamina le ultime sei parole in
stops. - Crea
cleaned_chardonnay_corpcontm_map()passandochardonnay_corp, la funzioneremoveWords()e infine le stopwords,stops. - Ora esamina di nuovo il
contentdel tweet24per confrontare i risultati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])