Un assaggio rapido di text mining

A volte possiamo intuire l'intento e le idee principali dell'autore semplicemente guardando le parole più comuni.

Alla base, il text mining con bag-of-words è un modo per contare i termini, o n-grammi, in una raccolta di documenti. Considera le frasi seguenti, che abbiamo salvato in text e rese disponibili nel tuo workspace:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Contare manualmente le parole nelle frasi qui sopra è una seccatura! Per fortuna, il pacchetto qdap offre un’alternativa migliore. Puoi trovare facilmente i 4 termini più frequenti (inclusi gli ex aequo) in text chiamando la funzione freq_terms e specificando 4.

frequent_terms <- freq_terms(text, 4)

L’oggetto frequent_terms memorizza tutte le parole uniche e il loro conteggio. Puoi poi creare un grafico a barre semplicemente chiamando la funzione plot sull’oggetto frequent_terms.

plot(frequent_terms)

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Abbiamo creato nel tuo workspace un oggetto chiamato new_text che contiene diverse frasi.

Carica il pacchetto qdap.
Stampa new_text in console.
Crea term_count con i 10 termini più frequenti in new_text.
Traccia un grafico a barre con i risultati di term_count.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Modifica ed esegui il codice