Een voorbeeld van mislukte tekstanalyse
In het begin heb je besproken hoe krachtig het is om stopwoorden te verwijderen voordat je tekstanalyse uitvoert. In het meest recente hoofdstuk heb je herhaald hoe je cosinusovereenkomst gebruikt om teksten te vinden die op elkaar lijken.
In deze oefening onderzoek je de heel reële mogelijkheid dat je tekstanalyse verkeerd toepast. Je berekent de cosinusovereenkomst voor de hoofdstukken in het boek Animal Farm, zonder stopwoorden te verwijderen.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Bekijk de meegeleverde code om woordtellingen te maken. Dit is al voor je gedaan.
- Gebruik de functie
pairwise_similarity()uitwidyrom de cosinusovereenkomsten te berekenen voor elk hoofdstuk in de kolomchapter. - Sorteer de resultaten met de hoogste
similarity-waarden eerst. - Bereken het gemiddelde
meanvan desimilarity-waarden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))