Prapemrosesan teks: hapus stop word
Stop word tidak terhindarkan dalam penulisan. Namun, ketika Anda ingin menentukan seberapa mirip dua potong teks atau mencoba menemukan tema dalam teks, stop word dapat mempersulit analisis. Dalam buku Animal Farm, bab pertama hanya berisi 2.636 kata, tetapi hampir 200 di antaranya adalah kata "the".
Biasanya, "the" tidak akan membantu dalam proyek analisis teks. Pada latihan ini Anda akan menghapus stop word dari bab pertama Animal Farm.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)