Pre-elaborazione del testo: stemming
La radice delle parole è spesso più importante delle desinenze, soprattutto nell’analisi del testo. Il libro Animal Farm è chiaramente incentrato sugli animali. Tuttavia, sapere che il libro menziona animal's 248 volte e animal 107 volte potrebbe non essere utile per la tua analisi.
tidy_animal_farm contiene una tibble con le parole di Animal Farm, tokenizzate e senza stop word. Il prossimo passo è applicare lo stemming alle parole ed esplorare i risultati.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Usa
dplyreSnowballCper applicare lo stemming alle parole ditidy_animal_farm. - Stampa le vecchie frequenze delle parole da
tidy_animal_farm. - Stampa le nuove frequenze delle parole da
stemmed_animal_farm.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)