BaşlayınÜcretsiz Başlayın

Metin ön işleme: Kök bulma (Stemming)

Metin analizinde, kelimelerin kökleri çoğu zaman eklerinden daha önemlidir. Animal Farm kitabı açıkça hayvanlar hakkında. Ancak kitapta animal's 248 kez, animal ise 107 kez geçiyor olması analizinde pek yardımcı olmayabilir.

tidy_animal_farm, Animal Farm'daki kelimelerin, belirteçlerine ayrılmış ve durak kelimeler çıkarılmış bir tibble'ını içerir. Bir sonraki adım kelimeleri köklerine indirgemek (stem) ve sonuçları incelemek.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tidy_animal_farm içindeki kelimeleri köklerine indirmek için dplyr ve SnowballC kullan.
  • Eski kelime sıklıklarını tidy_animal_farm'dan yazdır.
  • Yeni kelime sıklıklarını stemmed_animal_farm'dan yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Kodu Düzenle ve Çalıştır