Metin ön işleme: Kök bulma (Stemming)
Metin analizinde, kelimelerin kökleri çoğu zaman eklerinden daha önemlidir. Animal Farm kitabı açıkça hayvanlar hakkında. Ancak kitapta animal's 248 kez, animal ise 107 kez geçiyor olması analizinde pek yardımcı olmayabilir.
tidy_animal_farm, Animal Farm'daki kelimelerin, belirteçlerine ayrılmış ve durak kelimeler çıkarılmış bir tibble'ını içerir. Bir sonraki adım kelimeleri köklerine indirgemek (stem) ve sonuçları incelemek.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Egzersiz talimatları
tidy_animal_farmiçindeki kelimeleri köklerine indirmek içindplyrveSnowballCkullan.- Eski kelime sıklıklarını
tidy_animal_farm'dan yazdır. - Yeni kelime sıklıklarını
stemmed_animal_farm'dan yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)