MulaiMulai sekarang secara gratis

Latihan TFIDF

Sebelumnya Anda melihat representasi bag-of-words dari artikel tentang minyak mentah. Perhitungan nilai TFIDF bergantung pada representasi bag-of-words ini, tetapi juga mempertimbangkan seberapa sering sebuah kata muncul dalam suatu artikel, dan seberapa sering kata tersebut muncul dalam kumpulan artikel.

Untuk menentukan seberapa bermaknanya kata-kata saat membandingkan artikel yang berbeda, hitung bobot TFIDF untuk kata-kata dalam crude, yaitu kumpulan 20 artikel tentang minyak mentah.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Hitung nilai TFIDF untuk crude berdasarkan article_id dan word. Simpan tibble yang dihasilkan sebagai crude_weights.
  • Urutkan crude_weights dengan fungsi arrange() berdasarkan nilai tf_idf secara menurun.
  • Saring crude_weights ke nilai tf_idf terendah yang tidak nol. Gunakan kembali fungsi arrange.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Edit dan Jalankan Kode