IniziaInizia gratis

Treemap per gruppi di documenti

Spesso ti capiterà di lavorare con documenti raggruppati per autore, prodotto o azienda. In questo esercizio imparerai a esplorare il testo mantenendo i gruppi in una visualizzazione compatta. Ad esempio, con le recensioni dei clienti raggruppate per prodotto potresti voler analizzare più dimensioni delle recensioni contemporaneamente. Per iniziare potresti calcolare la polarity() delle recensioni. Un’altra dimensione può essere la lunghezza. La lunghezza del documento può riflettere l’intensità emotiva. Se un cliente lascia un breve "great shoes!", si può inferire che sia in realtà meno entusiasta rispetto a una recensione positiva più lunga. Potresti anche voler raggruppare le recensioni per tipologia di prodotto, come scarpe da donna, uomo e bambini. Un treemap ti permette di analizzare tutte queste dimensioni.

Nell’analisi del testo, in un treemap ogni riquadro rappresenta un documento, ad esempio un tweet. I documenti sono raggruppati in qualche modo, ad esempio per autore. La dimensione di ciascun riquadro è determinata da un valore numerico, come il numero di parole o di lettere. I singoli colori sono determinati da un punteggio di sentiment.

Dopo aver organizzato la tibble, usa la libreria treemap, che contiene la funzione treemap(), per creare la visualizzazione. L’esempio di codice qui sotto dichiara i dati, le variabili di raggruppamento, la dimensione, il colore e altre estetiche.

treemap(
  data_frame,
  index = c("group", "individual_document"),
  vSize = "doc_length",
  vColor = "avg_score",
  type = "value",
  title = "Sentiment Scores by Doc",
  palette = c("red", "white", "green")
)

L’oggetto pre-caricato all_books contiene un corpus in formato tidy combinato con 4 libri di Shakespeare, 3 di Melville e 4 di Twain. In base al treemap dovresti riuscire a capire chi scrive libri più lunghi e la polarità dell’autore nel complesso e dei singoli libri.

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

book_length <- all_books %>%
  # Count number of words per book
  ___(___)
  
# Examine the results
book_length
Modifica ed esegui il codice