Funzioni di pulizia comuni da tm
Ora che conosci due modi per creare un corpus, puoi concentrarti sulla pulizia, o preprocessing, del testo. Per iniziare, pulirai un piccolo pezzo di testo; poi passerai a corpora più grandi.
Nel text mining con bag of words, la pulizia aiuta ad aggregare i termini. Ad esempio, può avere senso considerare le parole "miner", "mining" e "mine" come un unico termine. I passaggi specifici di preprocessing variano in base al progetto. Per esempio, le parole usate nei tweet sono molto diverse da quelle usate nei documenti legali, quindi anche il processo di pulizia può essere piuttosto diverso.
Tra le funzioni di preprocessing più comuni trovi:
tolower(): trasforma tutti i caratteri in minuscoloremovePunctuation(): rimuove tutta la punteggiaturaremoveNumbers(): rimuove i numeristripWhitespace(): rimuove gli spazi bianchi in eccesso
tolower() fa parte di R base, mentre le altre tre funzioni provengono dal pacchetto tm. D’ora in poi, caricheremo tm e qdap per te quando serviranno. Ogni volta che introdurremo un nuovo pacchetto, ti chiederemo di caricarlo la prima volta.
La variabile text, che contiene una frase, è mostrata nello script.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
Applica ciascuna delle seguenti funzioni a text, stampando semplicemente i risultati nella console:
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___