Crea una TDM adatta al dendrogramma
Ora che conosci i passaggi per creare un dendrogramma, puoi applicarli al testo. Ma prima, devi limitare il numero di parole nella tua TDM usando removeSparseTerms() di tm. Perché dovresti regolare la sparsità della TDM/DTM?
Le TDM e le DTM sono sparse, cioè contengono per lo più zeri. Ricorda che 1000 tweet possono generare una TDM con oltre 3000 termini! Non riuscirai a interpretare facilmente un dendrogramma così affollato, soprattutto se lavori con più testo.
Nella maggior parte dei contesti professionali, un buon dendrogramma si basa su una TDM con 25–70 termini. Avere più di 70 termini può rendere la visualizzazione affollata e incomprensibile. Al contrario, avere meno di 25 termini probabilmente significa che il tuo dendrogramma non mostrerà cluster pertinenti e informativi.
Quando usi removeSparseTerms(), il parametro sparse regola il numero totale di termini mantenuti nella TDM. Più sparse è vicino a 1, più termini vengono mantenuti. Questo valore rappresenta una soglia percentuale di zeri per ciascun termine nella TDM.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
tweets_tdm è stata creata usando i tweet su chardonnay.
- Stampa in console le dimensioni di
tweets_tdm. - Crea
tdm1usandoremoveSparseTerms()consparse = 0.95sutweets_tdm. - Crea
tdm2usandoremoveSparseTerms()consparse = 0.975sutweets_tdm. - Stampa
tdm1in console per vedere quanti termini rimangono. - Stampa
tdm2in console per vedere quanti termini rimangono.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___