Pre-elaborazione del testo: rimuovere le stop word
Le stop word sono inevitabili nella scrittura. Tuttavia, quando vuoi misurare quanto sono simili due testi o quando cerchi di individuare dei temi, le stop word possono complicare le cose. Nel libro Animal Farm, il primo capitolo contiene solo 2.636 parole, ma quasi 200 di queste sono la parola "the".
Di solito, "the" non ci aiuta nei progetti di analisi del testo. In questo esercizio rimuoverai le stop word dal primo capitolo di Animal Farm.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)