Aan de slagGa gratis aan de slag

Een voorbeeld van mislukte tekstanalyse

In het begin heb je besproken hoe krachtig het is om stopwoorden te verwijderen voordat je tekstanalyse uitvoert. In het meest recente hoofdstuk heb je herhaald hoe je cosinusovereenkomst gebruikt om teksten te vinden die op elkaar lijken.

In deze oefening onderzoek je de heel reële mogelijkheid dat je tekstanalyse verkeerd toepast. Je berekent de cosinusovereenkomst voor de hoofdstukken in het boek Animal Farm, zonder stopwoorden te verwijderen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Bekijk de meegeleverde code om woordtellingen te maken. Dit is al voor je gedaan.
  • Gebruik de functie pairwise_similarity() uit widyr om de cosinusovereenkomsten te berekenen voor elk hoofdstuk in de kolom chapter.
  • Sorteer de resultaten met de hoogste similarity-waarden eerst.
  • Bereken het gemiddelde mean van de similarity-waarden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Code bewerken en uitvoeren