IniziaInizia gratis

Crea una TDM adatta al dendrogramma

Ora che conosci i passaggi per creare un dendrogramma, puoi applicarli al testo. Ma prima, devi limitare il numero di parole nella tua TDM usando removeSparseTerms() di tm. Perché dovresti regolare la sparsità della TDM/DTM?

Le TDM e le DTM sono sparse, cioè contengono per lo più zeri. Ricorda che 1000 tweet possono generare una TDM con oltre 3000 termini! Non riuscirai a interpretare facilmente un dendrogramma così affollato, soprattutto se lavori con più testo.

Nella maggior parte dei contesti professionali, un buon dendrogramma si basa su una TDM con 25–70 termini. Avere più di 70 termini può rendere la visualizzazione affollata e incomprensibile. Al contrario, avere meno di 25 termini probabilmente significa che il tuo dendrogramma non mostrerà cluster pertinenti e informativi.

Quando usi removeSparseTerms(), il parametro sparse regola il numero totale di termini mantenuti nella TDM. Più sparse è vicino a 1, più termini vengono mantenuti. Questo valore rappresenta una soglia percentuale di zeri per ciascun termine nella TDM.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza il corso

Istruzioni dell'esercizio

tweets_tdm è stata creata usando i tweet su chardonnay.

  • Stampa in console le dimensioni di tweets_tdm.
  • Crea tdm1 usando removeSparseTerms() con sparse = 0.95 su tweets_tdm.
  • Crea tdm2 usando removeSparseTerms() con sparse = 0.975 su tweets_tdm.
  • Stampa tdm1 in console per vedere quanti termini rimangono.
  • Stampa tdm2 in console per vedere quanti termini rimangono.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___
Modifica ed esegui il codice