Ripasso TM (I)

Nel corso Text Mining: Bag of Words hai imparato che un corpus è un insieme di testi, e hai visto alcune funzioni per il preprocessing del testo. Per ricapitolare, un modo per creare e ripulire un corpus è usare le funzioni qui sotto. Anche se questo è un corso diverso, l’analisi del sentiment fa parte del text mining, quindi un ripasso può essere utile.

Trasforma un vettore di caratteri in una sorgente testuale con VectorSource().
Trasforma una sorgente testuale in un corpus con VCorpus().
Rimuovi i caratteri indesiderati dal corpus usando funzioni di pulizia come removePunctuation() e stripWhitespace() di tm, e replace_abbreviation() di qdap.

In questo esercizio è stata creata una funzione personalizzata clean_corpus() che utilizza funzioni standard di preprocessing per un’applicazione più semplice.

clean_corpus() accetta l’output di VCorpus() e applica funzioni di pulizia. Ad esempio:

processed_corpus <- clean_corpus(my_corpus)

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza corso

Istruzioni dell'esercizio

La tua sessione R ha un vettore di testo, tm_define, che contiene due piccoli documenti e la funzione clean_corpus().

Crea un oggetto chiamato tm_vector applicando VectorSource() a tm_define.
Crea tm_corpus usando VCorpus() su tm_vector.
Usa content() per esaminare il contenuto del primo documento in tm_corpus.
- I documenti nel corpus si accedono con la sintassi delle liste, quindi usa le doppie parentesi quadre, ad es. [[1]].
Ripulisci il testo del corpus usando la funzione personalizzata clean_corpus() su tm_corpus. Chiama questo nuovo oggetto tm_clean.
Esamina di nuovo il primo documento del nuovo oggetto tm_clean per vedere come è cambiato il testo dopo l’applicazione di clean_corpus().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___

Modifica ed esegui il codice