Inizia subitoInizia gratis

Pre-elaborazione del testo: rimuovere le stop word

Le stop word sono inevitabili nella scrittura. Tuttavia, quando vuoi misurare quanto sono simili due testi o quando cerchi di individuare dei temi, le stop word possono complicare le cose. Nel libro Animal Farm, il primo capitolo contiene solo 2.636 parole, ma quasi 200 di queste sono la parola "the".

Di solito, "the" non ci aiuta nei progetti di analisi del testo. In questo esercizio rimuoverai le stop word dal primo capitolo di Animal Farm.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
  ___(word, ___)
Modifica ed esegui il codice