Latihan TFIDF
Sebelumnya Anda melihat representasi bag-of-words dari artikel tentang minyak mentah. Perhitungan nilai TFIDF bergantung pada representasi bag-of-words ini, tetapi juga mempertimbangkan seberapa sering sebuah kata muncul dalam suatu artikel, dan seberapa sering kata tersebut muncul dalam kumpulan artikel.
Untuk menentukan seberapa bermaknanya kata-kata saat membandingkan artikel yang berbeda, hitung bobot TFIDF untuk kata-kata dalam crude, yaitu kumpulan 20 artikel tentang minyak mentah.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Hitung nilai TFIDF untuk
crudeberdasarkanarticle_iddanword. Simpan tibble yang dihasilkan sebagaicrude_weights. - Urutkan
crude_weightsdengan fungsiarrange()berdasarkan nilaitf_idfsecara menurun. - Saring
crude_weightske nilaitf_idfterendah yang tidak nol. Gunakan kembali fungsiarrange.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)