Un esempio di fallimento nell'analisi del testo
All'inizio hai parlato dell'importanza di rimuovere le stop word prima di fare analisi del testo. In questo capitolo hai rivisto l'uso della cosine similarity per individuare testi simili tra loro.
In questo esercizio esplorerai la possibilità molto concreta di usare male l'analisi del testo. Calcolerai le cosine similarity per i capitoli del libro Animal Farm, senza rimuovere le stop word.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Rivedi il codice fornito per creare i conteggi delle parole. È già stato completato per te.
- Usando la funzione
pairwise_similarity()diwidyr, calcola le cosine similarity per ciascun capitolo nella colonnachapter. - Ordina i risultati mettendo per primi i valori di
similaritypiù alti. - Calcola la
meandei valori disimilarity.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))