Crea corpora basati sulla polarità

In questo esercizio eseguirai il Passo 3 del workflow di text mining. Anche se qdap non è un pacchetto tidy, userai mutate() per creare una nuova colonna basata sulla lista polarity restituita, che rappresenta i punteggi di all polarity (questo è un suggerimento 😉). Nel capitolo 3 abbiamo usato una funzione personalizzata pol_subsections che utilizza solo dichiarazioni base di R. Tuttavia, seguendo i principi tidy, questo esercizio usa filter() e introduce anche pull(). La funzione pull() funziona come [[ per estrarre una singola variabile.

Una volta separati, unisci tutti i commenti positivi e negativi in due documenti più grandi che rappresentano tutte le parole tra le recensioni positive e negative degli alloggi in affitto.

Infine, creerai una Term Document Matrix (TDM) pesata con Term Frequency Inverse Document Frequency (TFIDF). Poiché il codice di questo esercizio parte da una struttura tidy, alcune funzioni prese in prestito da tm sono usate insieme all’operatore %>% per mantenere uno stile coerente. Se non conosci le basi del pacchetto tm, dai un’occhiata al corso Text Mining with Bag-of-Words in R. Invece di contare il numero di volte in cui una parola viene usata (frequenza), i valori nella TDM sono penalizzati per i termini sovrautilizzati, il che aiuta a ridurre le parole non informative.

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

pos_terms <- bos_reviews %>%
  # Add polarity column
  ___(polarity = ___) %>%
  # Filter for positive polarity
  ___(___) %>%
  # Extract comments column
  ___(___) %>% 
  # Paste and collapse
  ___(collapse = "___")

Modifica ed esegui il codice