Un assaggio rapido di text mining
A volte possiamo intuire l'intento e le idee principali dell'autore semplicemente guardando le parole più comuni.
Alla base, il text mining con bag-of-words è un modo per contare i termini, o n-grammi, in una raccolta di documenti. Considera le frasi seguenti, che abbiamo salvato in text e rese disponibili nel tuo workspace:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Contare manualmente le parole nelle frasi qui sopra è una seccatura! Per fortuna, il pacchetto qdap offre un’alternativa migliore. Puoi trovare facilmente i 4 termini più frequenti (inclusi gli ex aequo) in text chiamando la funzione freq_terms e specificando 4.
frequent_terms <- freq_terms(text, 4)
L’oggetto frequent_terms memorizza tutte le parole uniche e il loro conteggio. Puoi poi creare un grafico a barre semplicemente chiamando la funzione plot sull’oggetto frequent_terms.
plot(frequent_terms)
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
Abbiamo creato nel tuo workspace un oggetto chiamato new_text che contiene diverse frasi.
- Carica il pacchetto
qdap. - Stampa
new_textin console. - Crea
term_countcon i 10 termini più frequenti innew_text. - Traccia un grafico a barre con i risultati di
term_count.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___