Creare un corpus

Hai creato una tibble chiamata russian_tweets che contiene circa 20.000 tweet generati automaticamente da bot durante il ciclo elettorale statunitense del 2016, così da poter eseguire un'analisi del testo. Tuttavia, dopo aver esaminato le opzioni disponibili per l'analisi che vuoi svolgere, ritieni che il pacchetto tm offra la strada più semplice. Per poter condurre l'analisi, devi prima creare un corpus e allegare metadati potenzialmente utili.

Fai attenzione: si tratta di dati reali provenienti da Twitter e, in quanto tali, c'è sempre il rischio che contengano volgarità o altri contenuti offensivi (in questo esercizio e in qualunque altro esercizio successivo che utilizzi dati reali di Twitter).

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

Istruzioni dell'esercizio

Crea un corpus usando la colonna content di russian_tweets.
Allega le colonne following e followers come metadati a tweet_corpus.
Stampa le prime righe della tabella dei metadati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))

# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___

# Review the meta data
head(meta(___))

Modifica ed esegui il codice

Introduzione all'Elaborazione del Linguaggio Naturale in R

IntermediárioNível de habilidade

4.8+

40 reviews

Nel Capitolo 4 trattiamo due pilastri dell’elaborazione del linguaggio naturale: sentiment analysis e word embeddings. Sono due tecniche di analisi imprescindibili per chi studia le basi dell’analisi del testo. Inoltre, imparerai brevemente a conoscere BERT, il part-of-speech tagging e il named entity recognition. In questo corso sono state coperte quasi 15 tecniche di analisi diverse, quindi il Capitolo 4 si chiude ricapitolando tutte le ottime tecniche che imparerai in questo percorso.

Exercise 1: Analisi del sentiment Exercise 2: lessici di tidytext Exercise 3: Punteggi di sentiment Exercise 4: Sentiment ed emozioni Exercise 5: Word embeddings Exercise 6: Esercizio su h2o Exercise 7: word2vec Exercise 8: Analisi NLP aggiuntive Exercise 9: Ripasso dei metodi #1 Exercise 10: Ripasso dei metodi #2 Exercise 11: Conclusione