Sentiment ed emozioni

All'interno del dataset sentiments, il lessico nrc contiene un dizionario di parole e un'emozione associata a ciascuna parola. In questo dataset trovi emozioni come joy, trust, anticipation e altre.

Nel dataset dei tweet bot russi che hai esplorato, hai analizzato i tweet inviati sia da un bot con orientamento di sinistra sia da uno di destra. Esplora il contenuto dei tweet inviati dal bot di sinistra (democratico) usando il lessico nrc. I tweet di sinistra, left, sono stati tokenizzati in parole, con le stop word rimosse.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

Istruzioni dell'esercizio

Crea una tibble con solo le parole di tipo anticipation dal lessico nrc.
Crea una tibble con solo le parole di tipo joy dal lessico nrc.
Stampa le parole principali di anticipation trovate in left_tokens.
Stampa le parole principali di joy trovate in left_tokens.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

left_tokens <- left %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words)
# Dictionaries 
anticipation <- ___("nrc") %>% 
  ___(sentiment == "anticipation")
joy <- ___("nrc") %>% 
  ___(sentiment == "joy")
# Print top words for Anticipation and Joy
left_tokens %>%
  ___(anticipation, by = "word") %>%
  ___(word, sort = TRUE)
left_tokens %>%
  ___(joy, by = "word") %>%
  ___(word, sort = TRUE)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Il Capitolo 1 di Introduzione all'Elaborazione del Linguaggio Naturale ti prepara a eseguire la tua prima analisi su testi. Esplorerai le espressioni regolari e la tokenizzazione, due componenti tra le più comuni nella maggior parte dei compiti di analisi. Con le espressioni regolari puoi cercare qualunque schema ti venga in mente e, con la tokenizzazione, puoi preparare e ripulire il testo per analisi più sofisticate. Questo capitolo è necessario per affrontare le tecniche che imparerai nei restanti capitoli del corso.

Exercise 1: Nozioni di base sulle espressioni regolari Exercise 2: Esercitarsi con la sintassi di grep Exercise 3: Esplorare le funzioni per le espressioni regolari.Exercise 4: Tokenizzazione Exercise 5: funzioni di tidytext Exercise 6: Tokenizzazione: frasi Exercise 7: Nozioni di base sulla pulizia del testo Exercise 8: Pre-elaborazione del testo: rimuovere le stop word Exercise 9: Pre-elaborazione del testo: stemming

In questo capitolo imparerai i modi più diffusi e studiati per analizzare il testo. Vedrai come creare un corpus testuale, trasformare una rappresentazione bag-of-words in una matrice TFIDF e usare metriche di similarità coseno per determinare quanto due testi siano simili tra loro. Consoliderai le basi per praticare l’NLP prima di passare alle applicazioni dell’NLP nei capitoli 3 e 4.

Exercise 1: Capire un corpus in R Exercise 2: Esplora un corpus in R Exercise 3: Creare una tibble da un corpus Exercise 4: Creare un corpus Exercise 5: La rappresentazione bag-of-words Exercise 6: Metti in pratica il BoW Exercise 7: Esempio BoW Exercise 8: Matrici sparse Exercise 9: Il TFIDF Exercise 10: Calcoli manuali Exercise 11: Esercizio su TFIDF Exercise 12: Similarità coseno Exercise 13: Un esempio di fallimento nell'analisi del testo Exercise 14: Esempio di similarità coseno

Il Capitolo 3 si concentra su due approcci comuni all’analisi del testo: la modellazione di classificazione e il topic modeling. Se lavori su progetti di analisi testuale, prima o poi userai uno o entrambi questi metodi. Questo capitolo ti insegna a eseguire entrambe le tecniche e offre indicazioni su come affrontarle da un punto di vista pratico.

Exercise 1: Preparare il testo per il modeling Exercise 2: Preparazione dei dati Exercise 3: Rimozione dei termini sparsi Exercise 4: Modellazione di classificazione Exercise 5: Esempio di classificazione Exercise 6: Matrici di confusione Exercise 7: Confronto: tibble TFIDF vs dtm Exercise 8: Introduzione al topic modeling Exercise 9: Esercizio su LDA Exercise 10: Assegnare argomenti ai documenti Exercise 11: LDA in pratica Exercise 12: Verifica della perplexity Exercise 13: Rivedere i risultati LDA

Nel Capitolo 4 trattiamo due pilastri dell’elaborazione del linguaggio naturale: sentiment analysis e word embeddings. Sono due tecniche di analisi imprescindibili per chi studia le basi dell’analisi del testo. Inoltre, imparerai brevemente a conoscere BERT, il part-of-speech tagging e il named entity recognition. In questo corso sono state coperte quasi 15 tecniche di analisi diverse, quindi il Capitolo 4 si chiude ricapitolando tutte le ottime tecniche che imparerai in questo percorso.

Exercise 1: Analisi del sentiment Exercise 2: lessici di tidytext Exercise 3: Punteggi di sentiment Exercise 4: Sentiment ed emozioni

Esercizio attuale

Exercise 5: Word embeddings Exercise 6: Esercizio su h2o Exercise 7: word2vec Exercise 8: Analisi NLP aggiuntive Exercise 9: Ripasso dei metodi #1 Exercise 10: Ripasso dei metodi #2 Exercise 11: Conclusione