Prapemrosesan teks: hapus stop word
Stop word tidak terhindarkan dalam penulisan. Namun, ketika Anda ingin menentukan seberapa mirip dua potong teks atau mencoba menemukan tema dalam teks, stop word dapat mempersulit analisis. Dalam buku Animal Farm, bab pertama hanya berisi 2.636 kata, tetapi hampir 200 di antaranya adalah kata "the".
Biasanya, "the" tidak akan membantu dalam proyek analisis teks. Pada latihan ini Anda akan menghapus stop word dari bab pertama Animal Farm.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)