IniziaInizia gratis

Ripasso TM (I)

Nel corso Text Mining: Bag of Words hai imparato che un corpus è un insieme di testi, e hai visto alcune funzioni per il preprocessing del testo. Per ricapitolare, un modo per creare e ripulire un corpus è usare le funzioni qui sotto. Anche se questo è un corso diverso, l’analisi del sentiment fa parte del text mining, quindi un ripasso può essere utile.

In questo esercizio è stata creata una funzione personalizzata clean_corpus() che utilizza funzioni standard di preprocessing per un’applicazione più semplice.

clean_corpus() accetta l’output di VCorpus() e applica funzioni di pulizia. Ad esempio:

processed_corpus <- clean_corpus(my_corpus)

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza il corso

Istruzioni dell'esercizio

La tua sessione R ha un vettore di testo, tm_define, che contiene due piccoli documenti e la funzione clean_corpus().

  • Crea un oggetto chiamato tm_vector applicando VectorSource() a tm_define.
  • Crea tm_corpus usando VCorpus() su tm_vector.
  • Usa content() per esaminare il contenuto del primo documento in tm_corpus.
    • I documenti nel corpus si accedono con la sintassi delle liste, quindi usa le doppie parentesi quadre, ad es. [[1]].
  • Ripulisci il testo del corpus usando la funzione personalizzata clean_corpus() su tm_corpus. Chiama questo nuovo oggetto tm_clean.
  • Esamina di nuovo il primo documento del nuovo oggetto tm_clean per vedere come è cambiato il testo dopo l’applicazione di clean_corpus().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___
Modifica ed esegui il codice