Aan de slagGa gratis aan de slag

LDA-resultaten beoordelen

Je hebt een topicmodel, napoleon_model, ontwikkeld met 5 onderwerpen voor de zinnen uit het boek Animal Farm die verwijzen naar het hoofdpersonage Napoleon. Vijf lokale auteurs hebben de belangrijkste woorden en zinnen per onderwerp beoordeeld en thema’s voor elk onderwerp aangeleverd.

Om je resultaten af te ronden, maak je enkele samenvattende statistieken over de onderwerpen. Je presenteert deze samenvattingswaarden samen met de thema’s aan je baas ter beoordeling.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Haal de gamma-matrix uit het topicmodel napoleon_model.
  • Gebruik dplyr-functies om een tibble te maken met het belangrijkste onderwerp in elke zin, genaamd grouped_gammas.
  • Gebruik grouped_gammas om het aantal zinnen te tellen dat het meest op elk onderwerp lijkt.
  • Gebruik grouped_gammas en bereken de gemiddelde gamma-waarde voor elk onderwerp.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Extract the gamma matrix 
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
  ___(document) %>%
  ___(desc(gamma)) %>%
  ___(1) %>%
  ___(topic)
# Count (tally) by topic
grouped_gammas %>% 
  ___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>% 
  ___(avg=mean(gamma)) %>%
  ___(desc(avg))
Code bewerken en uitvoeren