Metin önişleme: durak sözcükleri kaldır
Durak sözcükler (stop words) yazıda kaçınılmazdır. Ancak iki metnin birbirine ne kadar benzediğini belirlemek ya da metin içinde temalar bulmaya çalışırken, durak sözcükler işleri zorlaştırabilir. Animal Farm kitabında, birinci bölüm yalnızca 2.636 sözcük içerirken, bunların neredeyse 200’ü "the" kelimesidir.
Genellikle "the" metin analizi projelerinde bize yardımcı olmaz. Bu egzersizde Animal Farm’ın birinci bölümünden durak sözcükleri kaldıracaksın.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)