Aan de slagGa gratis aan de slag

Een tibble maken van een corpus

Om de corpus met ruwe-oliedata die je van een collega kreeg verder te verkennen, besluit je een pipeline te maken om de tekst in de documenten op te schonen. In plaats van dit met het tm-pakket te doen, zet je het corpus om naar een tibble zodat je de functies unnest_tokens(), count() en anti_join() kunt gebruiken waar je al mee bekend bent. De corpus crude bevat zowel de metadata als de tekst van elk document.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Zet het corpus om in een tibble.
  • Gebruik names om de kolomnamen af te drukken.
  • Tokenize (per woord), tel en verwijder stopwoorden uit de kolom text van crude_tibble.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Code bewerken en uitvoeren