Tokenization: Sätze
Animal Farm ist ein beliebtes Buch, das im Englischunterricht der Mittelstufe häufig aufgegeben wird. Du möchtest den Text etwas erkunden und Lehrkräften zusammenfassende Kennzahlen bereitstellen, die sie beim Einsatz des Buchs nutzen können. Du weißt bereits, dass es 10 Kapitel gibt, und dass du mit Tokenization die Anzahl der Sätze, Wörter und sogar Absätze zählen kannst. In dieser Übung nutzt du die im Video gelernten Tokenization-Techniken, um Animal Farm in Sätze zu zerlegen und sie pro Kapitel zu zählen.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Split the text_column into sentences
animal_farm %>%
___(output = "sentences", input = text_column, token = ___)