tm paketinden yaygın temizleme fonksiyonları

Artık bir korpusu iki farklı şekilde oluşturmayı bildiğine göre, metni temizlemeye yani ön işlemeye odaklanabilirsin. Önce küçük bir metin parçasını temizleyeceksin; sonra daha büyük korpuslara geçeceksin.

Bag-of-words metin madenciliğinde temizlik, terimleri bir araya getirmeye yardımcı olur. Örneğin, "miner", "mining" ve "mine" sözcüklerinin tek bir terim olarak ele alınması mantıklı olabilir. Uygulanacak özel ön işleme adımları projeye göre değişir. Örneğin, tweet'lerde kullanılan kelimelerle hukuki belgelerde kullanılanlar çok farklıdır; bu yüzden temizlik süreci de epey farklı olabilir.

Yaygın ön işleme fonksiyonları şunlardır:

tolower(): Tüm karakterleri küçük harfe çevir
removePunctuation(): Tüm noktalama işaretlerini kaldır
removeNumbers(): Sayıları kaldır
stripWhitespace(): Fazladan boşlukları kaldır

tolower() temel R'ın bir parçasıdır; diğer üç fonksiyon ise tm paketinden gelir. İlerledikçe, gerektiğinde tm ve qdap paketlerini senin için yükleyeceğiz. Yeni bir paketi ilk kez tanıttığımızda ise onu senin yüklemeni isteyeceğiz.

Betikte, bir cümle içeren text değişkeni gösteriliyor.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

Aşağıdaki fonksiyonların her birini text üzerine uygula ve sonuçları yalnızca konsola yazdır:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Kodu Düzenle ve Çalıştır