Contoh kegagalan dalam analisis teks
Di awal, Anda membahas pentingnya menghapus stop word sebelum melakukan analisis teks. Pada bab terbaru ini, Anda meninjau penggunaan cosine similarity untuk mengidentifikasi teks yang saling mirip.
Pada latihan ini, Anda akan mengeksplorasi kemungkinan nyata kegagalan dalam menggunakan analisis teks secara tepat. Anda akan menghitung cosine similarity untuk bab-bab dalam buku Animal Farm, tanpa menghapus stop word.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Tinjau kode yang disediakan untuk membuat hitungan kata. Bagian ini sudah diselesaikan untuk Anda.
- Dengan fungsi
pairwise_similarity()dariwidyr, hitung cosine similarity untuk setiap bab pada kolomchapter. - Urutkan hasil dengan nilai
similaritytertinggi terlebih dahulu. - Hitung rata-rata (
mean) dari nilaisimilarity.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))