Aan de slagGa gratis aan de slag

Tokenization: zinnen

Animal Farm is een populair boek dat vaak wordt opgegeven door docenten Engels op de middelbare school. Je hebt besloten het boek te verkennen en samenvattende statistieken te maken die docenten kunnen gebruiken wanneer ze dit boek aan hun leerlingen toewijzen. Je weet al dat er 10 hoofdstukken zijn, maar je weet ook dat je tokenization kunt gebruiken om het aantal zinnen, woorden en zelfs alinea’s te tellen. In deze oefening gebruik je de tokenization-technieken uit de video om Animal Farm op te delen in zinnen en ze per hoofdstuk te tellen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split the text_column into sentences
animal_farm %>%
  ___(output = "sentences", input = text_column, token = ___)
Code bewerken en uitvoeren