Funzioni di pulizia comuni da tm

Ora che conosci due modi per creare un corpus, puoi concentrarti sulla pulizia, o preprocessing, del testo. Per iniziare, pulirai un piccolo pezzo di testo; poi passerai a corpora più grandi.

Nel text mining con bag of words, la pulizia aiuta ad aggregare i termini. Ad esempio, può avere senso considerare le parole "miner", "mining" e "mine" come un unico termine. I passaggi specifici di preprocessing variano in base al progetto. Per esempio, le parole usate nei tweet sono molto diverse da quelle usate nei documenti legali, quindi anche il processo di pulizia può essere piuttosto diverso.

Tra le funzioni di preprocessing più comuni trovi:

tolower(): trasforma tutti i caratteri in minuscolo
removePunctuation(): rimuove tutta la punteggiatura
removeNumbers(): rimuove i numeri
stripWhitespace(): rimuove gli spazi bianchi in eccesso

tolower() fa parte di R base, mentre le altre tre funzioni provengono dal pacchetto tm. D’ora in poi, caricheremo tm e qdap per te quando serviranno. Ogni volta che introdurremo un nuovo pacchetto, ti chiederemo di caricarlo la prima volta.

La variabile text, che contiene una frase, è mostrata nello script.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Applica ciascuna delle seguenti funzioni a text, stampando semplicemente i risultati nella console:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Modifica ed esegui il codice