Metin önişleme: durak sözcükleri kaldır
Durak sözcükler (stop words) yazıda kaçınılmazdır. Ancak iki metnin birbirine ne kadar benzediğini belirlemek ya da metin içinde temalar bulmaya çalışırken, durak sözcükler işleri zorlaştırabilir. Animal Farm kitabında, birinci bölüm yalnızca 2.636 sözcük içerirken, bunların neredeyse 200’ü "the" kelimesidir.
Genellikle "the" metin analizi projelerinde bize yardımcı olmaz. Bu egzersizde Animal Farm’ın birinci bölümünden durak sözcükleri kaldıracaksın.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
___(word, ___)