tm paketinden yaygın temizleme fonksiyonları
Artık bir korpusu iki farklı şekilde oluşturmayı bildiğine göre, metni temizlemeye yani ön işlemeye odaklanabilirsin. Önce küçük bir metin parçasını temizleyeceksin; sonra daha büyük korpuslara geçeceksin.
Bag-of-words metin madenciliğinde temizlik, terimleri bir araya getirmeye yardımcı olur. Örneğin, "miner", "mining" ve "mine" sözcüklerinin tek bir terim olarak ele alınması mantıklı olabilir. Uygulanacak özel ön işleme adımları projeye göre değişir. Örneğin, tweet'lerde kullanılan kelimelerle hukuki belgelerde kullanılanlar çok farklıdır; bu yüzden temizlik süreci de epey farklı olabilir.
Yaygın ön işleme fonksiyonları şunlardır:
tolower(): Tüm karakterleri küçük harfe çevirremovePunctuation(): Tüm noktalama işaretlerini kaldırremoveNumbers(): Sayıları kaldırstripWhitespace(): Fazladan boşlukları kaldır
tolower() temel R'ın bir parçasıdır; diğer üç fonksiyon ise tm paketinden gelir. İlerledikçe, gerektiğinde tm ve qdap paketlerini senin için yükleyeceğiz. Yeni bir paketi ilk kez tanıttığımızda ise onu senin yüklemeni isteyeceğiz.
Betikte, bir cümle içeren text değişkeni gösteriliyor.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
Aşağıdaki fonksiyonların her birini text üzerine uygula ve sonuçları yalnızca konsola yazdır:
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___