Aan de slagBegin gratis

Tokenization: zinnen

Animal Farm is een populair boek dat vaak wordt opgegeven door docenten Engels op de middelbare school. Je hebt besloten het boek te verkennen en samenvattende statistieken te maken die docenten kunnen gebruiken wanneer ze dit boek aan hun leerlingen toewijzen. Je weet al dat er 10 hoofdstukken zijn, maar je weet ook dat je tokenization kunt gebruiken om het aantal zinnen, woorden en zelfs alinea’s te tellen. In deze oefening gebruik je de tokenization-technieken uit de video om Animal Farm op te delen in zinnen en ze per hoofdstuk te tellen.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the text_column into sentences
animal_farm %>%
  ___(output = "sentences", input = text_column, token = ___)
Code bewerken en uitvoeren