Tokenisasi: kalimat
Animal Farm adalah buku populer yang sering diberikan guru Bahasa Inggris tingkat menengah kepada siswanya. Anda memutuskan untuk mengeksplorasi teksnya dan menyediakan statistik ringkas agar guru dapat menggunakannya saat memberikan buku ini kepada siswa. Anda sudah tahu bahwa ada 10 bab, dan Anda juga tahu bahwa Anda dapat menggunakan tokenisasi untuk membantu menghitung jumlah kalimat, kata, bahkan paragraf. Pada latihan ini, Anda akan menggunakan teknik tokenisasi yang dipelajari dalam video untuk membagi Animal Farm menjadi kalimat dan menghitungnya per bab.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the text_column into sentences
animal_farm %>%
___(output = "sentences", input = text_column, token = ___)