BaşlayınÜcretsiz Başlayın

tm paketinden yaygın temizleme fonksiyonları

Artık bir korpusu iki farklı şekilde oluşturmayı bildiğine göre, metni temizlemeye yani ön işlemeye odaklanabilirsin. Önce küçük bir metin parçasını temizleyeceksin; sonra daha büyük korpuslara geçeceksin.

Bag-of-words metin madenciliğinde temizlik, terimleri bir araya getirmeye yardımcı olur. Örneğin, "miner", "mining" ve "mine" sözcüklerinin tek bir terim olarak ele alınması mantıklı olabilir. Uygulanacak özel ön işleme adımları projeye göre değişir. Örneğin, tweet'lerde kullanılan kelimelerle hukuki belgelerde kullanılanlar çok farklıdır; bu yüzden temizlik süreci de epey farklı olabilir.

Yaygın ön işleme fonksiyonları şunlardır:

  • tolower(): Tüm karakterleri küçük harfe çevir
  • removePunctuation(): Tüm noktalama işaretlerini kaldır
  • removeNumbers(): Sayıları kaldır
  • stripWhitespace(): Fazladan boşlukları kaldır

tolower() temel R'ın bir parçasıdır; diğer üç fonksiyon ise tm paketinden gelir. İlerledikçe, gerektiğinde tm ve qdap paketlerini senin için yükleyeceğiz. Yeni bir paketi ilk kez tanıttığımızda ise onu senin yüklemeni isteyeceğiz.

Betikte, bir cümle içeren text değişkeni gösteriliyor.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

Aşağıdaki fonksiyonların her birini text üzerine uygula ve sonuçları yalnızca konsola yazdır:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___
Kodu Düzenle ve Çalıştır