IniziaInizia gratis

Pre-elaborazione del testo: stemming

La radice delle parole è spesso più importante delle desinenze, soprattutto nell’analisi del testo. Il libro Animal Farm è chiaramente incentrato sugli animali. Tuttavia, sapere che il libro menziona animal's 248 volte e animal 107 volte potrebbe non essere utile per la tua analisi.

tidy_animal_farm contiene una tibble con le parole di Animal Farm, tokenizzate e senza stop word. Il prossimo passo è applicare lo stemming alle parole ed esplorare i risultati.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usa dplyr e SnowballC per applicare lo stemming alle parole di tidy_animal_farm.
  • Stampa le vecchie frequenze delle parole da tidy_animal_farm.
  • Stampa le nuove frequenze delle parole da stemmed_animal_farm.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Modifica ed esegui il codice