IniziaInizia gratis

Un esempio di fallimento nell'analisi del testo

All'inizio hai parlato dell'importanza di rimuovere le stop word prima di fare analisi del testo. In questo capitolo hai rivisto l'uso della cosine similarity per individuare testi simili tra loro.

In questo esercizio esplorerai la possibilità molto concreta di usare male l'analisi del testo. Calcolerai le cosine similarity per i capitoli del libro Animal Farm, senza rimuovere le stop word.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Rivedi il codice fornito per creare i conteggi delle parole. È già stato completato per te.
  • Usando la funzione pairwise_similarity() di widyr, calcola le cosine similarity per ciascun capitolo nella colonna chapter.
  • Ordina i risultati mettendo per primi i valori di similarity più alti.
  • Calcola la mean dei valori di similarity.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Modifica ed esegui il codice