Metin ön işleme: Kök bulma (Stemming)
Metin analizinde, kelimelerin kökleri çoğu zaman eklerinden daha önemlidir. Animal Farm kitabı açıkça hayvanlar hakkında. Ancak kitapta animal's 248 kez, animal ise 107 kez geçiyor olması analizinde pek yardımcı olmayabilir.
tidy_animal_farm, Animal Farm'daki kelimelerin, belirteçlerine ayrılmış ve durak kelimeler çıkarılmış bir tibble'ını içerir. Bir sonraki adım kelimeleri köklerine indirgemek (stem) ve sonuçları incelemek.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
tidy_animal_farmiçindeki kelimeleri köklerine indirmek içindplyrveSnowballCkullan.- Eski kelime sıklıklarını
tidy_animal_farm'dan yazdır. - Yeni kelime sıklıklarını
stemmed_animal_farm'dan yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)