Ripasso TM (I)
Nel corso Text Mining: Bag of Words hai imparato che un corpus è un insieme di testi, e hai visto alcune funzioni per il preprocessing del testo. Per ricapitolare, un modo per creare e ripulire un corpus è usare le funzioni qui sotto. Anche se questo è un corso diverso, l’analisi del sentiment fa parte del text mining, quindi un ripasso può essere utile.
- Trasforma un vettore di caratteri in una sorgente testuale con
VectorSource(). - Trasforma una sorgente testuale in un corpus con
VCorpus(). - Rimuovi i caratteri indesiderati dal corpus usando funzioni di pulizia come
removePunctuation()estripWhitespace()ditm, ereplace_abbreviation()diqdap.
In questo esercizio è stata creata una funzione personalizzata clean_corpus() che utilizza funzioni standard di preprocessing per un’applicazione più semplice.
clean_corpus() accetta l’output di VCorpus() e applica funzioni di pulizia. Ad esempio:
processed_corpus <- clean_corpus(my_corpus)
Questo esercizio fa parte del corso
Sentiment Analysis in R
Istruzioni dell'esercizio
La tua sessione R ha un vettore di testo, tm_define, che contiene due piccoli documenti e la funzione clean_corpus().
- Crea un oggetto chiamato
tm_vectorapplicandoVectorSource()atm_define. - Crea
tm_corpususandoVCorpus()sutm_vector. - Usa
content()per esaminare il contenuto del primo documento intm_corpus.- I documenti nel corpus si accedono con la sintassi delle liste, quindi usa le doppie parentesi quadre, ad es.
[[1]].
- I documenti nel corpus si accedono con la sintassi delle liste, quindi usa le doppie parentesi quadre, ad es.
- Ripulisci il testo del corpus usando la funzione personalizzata
clean_corpus()sutm_corpus. Chiama questo nuovo oggettotm_clean. - Esamina di nuovo il primo documento del nuovo oggetto
tm_cleanper vedere come è cambiato il testo dopo l’applicazione diclean_corpus().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define
# Create a VectorSource
tm_vector <- ___
# Apply VCorpus
tm_corpus <- ___
# Examine the first document's contents
___(___[[___]])
# Clean the text
tm_clean <- ___
# Reexamine the contents of the first doc
___