BaşlayınÜcretsiz başlayın

Metin önişleme: durak sözcükleri kaldır

Durak sözcükler (stop words) yazıda kaçınılmazdır. Ancak iki metnin birbirine ne kadar benzediğini belirlemek ya da metin içinde temalar bulmaya çalışırken, durak sözcükler işleri zorlaştırabilir. Animal Farm kitabında, birinci bölüm yalnızca 2.636 sözcük içerirken, bunların neredeyse 200’ü "the" kelimesidir.

Genellikle "the" metin analizi projelerinde bize yardımcı olmaz. Bu egzersizde Animal Farm’ın birinci bölümünden durak sözcükleri kaldıracaksın.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Tokenize animal farm's text_column column
tidy_animal_farm <- animal_farm %>%
  ___(word, ___)
Kodu Düzenle ve Çalıştır