Crea corpora basati sulla polarità
In questo esercizio eseguirai il Passo 3 del workflow di text mining. Anche se qdap non è un pacchetto tidy, userai mutate() per creare una nuova colonna basata sulla lista polarity restituita, che rappresenta i punteggi di all polarity (questo è un suggerimento 😉). Nel capitolo 3 abbiamo usato una funzione personalizzata pol_subsections che utilizza solo dichiarazioni base di R. Tuttavia, seguendo i principi tidy, questo esercizio usa filter() e introduce anche pull(). La funzione pull() funziona come [[ per estrarre una singola variabile.
Una volta separati, unisci tutti i commenti positivi e negativi in due documenti più grandi che rappresentano tutte le parole tra le recensioni positive e negative degli alloggi in affitto.
Infine, creerai una Term Document Matrix (TDM) pesata con Term Frequency Inverse Document Frequency (TFIDF). Poiché il codice di questo esercizio parte da una struttura tidy, alcune funzioni prese in prestito da tm sono usate insieme all’operatore %>% per mantenere uno stile coerente. Se non conosci le basi del pacchetto tm, dai un’occhiata al corso Text Mining with Bag-of-Words in R. Invece di contare il numero di volte in cui una parola viene usata (frequenza), i valori nella TDM sono penalizzati per i termini sovrautilizzati, il che aiuta a ridurre le parole non informative.
Questo esercizio fa parte del corso
Sentiment Analysis in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
pos_terms <- bos_reviews %>%
# Add polarity column
___(polarity = ___) %>%
# Filter for positive polarity
___(___) %>%
# Extract comments column
___(___) %>%
# Paste and collapse
___(collapse = "___")