MulaiMulai sekarang secara gratis

Fungsi pembersihan umum dari tm

Sekarang setelah Anda mengetahui dua cara membuat korpus, Anda dapat berfokus pada pembersihan, atau praproses, teks. Pertama, Anda akan membersihkan potongan teks kecil; kemudian, Anda akan beralih ke korpus yang lebih besar.

Dalam text mining bag-of-words, pembersihan membantu menggabungkan term. Misalnya, masuk akal jika kata "miner", "mining," dan "mine" dianggap sebagai satu term. Langkah praproses spesifik akan bervariasi berdasarkan proyek. Sebagai contoh, kata-kata yang digunakan di tweet sangat berbeda dengan yang digunakan di dokumen legal, sehingga proses pembersihannya juga bisa sangat berbeda.

Fungsi praproses umum meliputi:

  • tolower(): Mengubah semua karakter menjadi huruf kecil
  • removePunctuation(): Menghapus semua tanda baca
  • removeNumbers(): Menghapus angka
  • stripWhitespace(): Menghapus spasi kosong berlebih

tolower() adalah bagian dari R dasar, sementara tiga fungsi lainnya berasal dari paket tm. Ke depan, kami akan memuat tm dan qdap untuk Anda saat diperlukan. Setiap kali kami memperkenalkan paket baru, kami akan meminta Anda memuatnya pada penggunaan pertama.

Variabel text, yang berisi sebuah kalimat, ditampilkan dalam skrip.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

Terapkan masing-masing fungsi berikut pada text, cukup dengan mencetak hasilnya ke konsol:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___
Edit dan Jalankan Kode