Fungsi pembersihan umum dari tm
Sekarang setelah Anda mengetahui dua cara membuat korpus, Anda dapat berfokus pada pembersihan, atau praproses, teks. Pertama, Anda akan membersihkan potongan teks kecil; kemudian, Anda akan beralih ke korpus yang lebih besar.
Dalam text mining bag-of-words, pembersihan membantu menggabungkan term. Misalnya, masuk akal jika kata "miner", "mining," dan "mine" dianggap sebagai satu term. Langkah praproses spesifik akan bervariasi berdasarkan proyek. Sebagai contoh, kata-kata yang digunakan di tweet sangat berbeda dengan yang digunakan di dokumen legal, sehingga proses pembersihannya juga bisa sangat berbeda.
Fungsi praproses umum meliputi:
tolower(): Mengubah semua karakter menjadi huruf kecilremovePunctuation(): Menghapus semua tanda bacaremoveNumbers(): Menghapus angkastripWhitespace(): Menghapus spasi kosong berlebih
tolower() adalah bagian dari R dasar, sementara tiga fungsi lainnya berasal dari paket tm. Ke depan, kami akan memuat tm dan qdap untuk Anda saat diperlukan. Setiap kali kami memperkenalkan paket baru, kami akan meminta Anda memuatnya pada penggunaan pertama.
Variabel text, yang berisi sebuah kalimat, ditampilkan dalam skrip.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Terapkan masing-masing fungsi berikut pada text, cukup dengan mencetak hasilnya ke konsol:
- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create the object: text
text <- "She woke up at 6 A.M. It\'s so early! She was only 10% awake and began drinking coffee in front of her computer."
# Make lowercase
___
# Remove punctuation
____
# Remove numbers
___
# Remove whitespace
___