Tokenização: frases
Animal Farm é um livro popular que professores de inglês do ensino fundamental costumam passar para os alunos. Você decidiu explorar o texto e fornecer estatísticas resumidas para que os professores usem ao escolher este livro para suas turmas. Você já sabe que há 10 capítulos, mas também sabe que pode usar tokenização para ajudar a contar o número de frases, palavras e até parágrafos. Neste exercício, você vai usar as técnicas de tokenização aprendidas no vídeo para dividir Animal Farm em frases e contá-las por capítulo.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the text_column into sentences
animal_farm %>%
___(output = "sentences", input = text_column, token = ___)