MulaiMulai sekarang secara gratis

Contoh kegagalan dalam analisis teks

Di awal, Anda membahas pentingnya menghapus stop word sebelum melakukan analisis teks. Pada bab terbaru ini, Anda meninjau penggunaan cosine similarity untuk mengidentifikasi teks yang saling mirip.

Pada latihan ini, Anda akan mengeksplorasi kemungkinan nyata kegagalan dalam menggunakan analisis teks secara tepat. Anda akan menghitung cosine similarity untuk bab-bab dalam buku Animal Farm, tanpa menghapus stop word.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Tinjau kode yang disediakan untuk membuat hitungan kata. Bagian ini sudah diselesaikan untuk Anda.
  • Dengan fungsi pairwise_similarity() dari widyr, hitung cosine similarity untuk setiap bab pada kolom chapter.
  • Urutkan hasil dengan nilai similarity tertinggi terlebih dahulu.
  • Hitung rata-rata (mean) dari nilai similarity.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create word counts
animal_farm_counts <- animal_farm %>%
  unnest_tokens(word, text_column) %>%
  count(chapter, word)

# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
  ___(___, ___, n) %>%
  arrange(desc(___))

# Print the mean of the similarity values
comparisons %>%
  summarize(mean = ___(___))
Edit dan Jalankan Kode