Mengubah bobot frekuensi
Sejauh ini, Anda hanya menghitung istilah dalam dokumen pada DocumentTermMatrix atau TermDocumentMatrix. Pada latihan ini, Anda akan mempelajari pembobotan TfIdf sebagai pengganti frekuensi istilah sederhana. TfIdf adalah singkatan dari term frequency-inverse document frequency dan digunakan ketika Anda memiliki korpus besar dengan keragaman istilah yang terbatas.
TfIdf menghitung istilah (yaitu Tf), menormalkan nilainya berdasarkan panjang dokumen, lalu memberikan penalti semakin sering sebuah kata muncul di antara dokumen. Ini sesuai logika; jika sebuah kata sangat umum, kata tersebut penting namun tidak memberikan wawasan. Aspek penalti ini ditangkap oleh inverse document frequency (yaitu, Idf).
Sebagai contoh, meninjau catatan layanan pelanggan mungkin menyertakan istilah "cu" sebagai singkatan dari "customer". Satu catatan mungkin berbunyi "the cu has a damaged package" dan catatan lain "cu called with question about delivery". Dengan pembobotan document frequency, "cu" muncul dua kali, sehingga diharapkan informatif. Namun, dalam TfIdf, "cu" dikenai penalti karena muncul di semua dokumen. Akibatnya, "cu" tidak dianggap baru, sehingga nilainya dikurangi mendekati 0, yang memungkinkan istilah lain memiliki nilai lebih tinggi untuk dianalisis.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a TDM
tdm <- ___
# Convert it to a matrix
tdm_m <- ___
# Examine part of the matrix
tdm_m[___, ___]