IniziaInizia gratis

Stop words e word cloud

Ora che sei nel giusto mindset per il text mining, seduto con un buon bicchiere di chardonnay, dobbiamo andare più a fondo. Nell’ultima word cloud, "chardonnay" dominava la visualizzazione. Era così dominante che non riuscivi a cogliere altri spunti interessanti.

Modifichiamo le stop words per includere "chardonnay" e vedere quali altre parole sono comuni, ma in precedenza erano state coperte.

Nel tuo ambiente di lavoro c’è una versione pulita dei tweet su chardonnay, ma ora rimuoviamo alcuni termini poco informativi. Questo esercizio usa content() per mostrarti un tweet specifico per confronto. Ricorda di usare le doppie parentesi per indicizzare la lista del corpus.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

  • Applica content() al 24º documento in chardonnay_corp.
  • Aggiungi "chardonnay" alle stopwords in inglese, assegnando il risultato a stops.
  • Esamina le ultime sei parole in stops.
  • Crea cleaned_chardonnay_corp con tm_map() passando chardonnay_corp, la funzione removeWords() e infine le stopwords, stops.
  • Ora esamina di nuovo il content del tweet 24 per confrontare i risultati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])
Modifica ed esegui il codice