Contoh kegagalan dalam analisis teks
Di awal, Anda membahas pentingnya menghapus stop word sebelum melakukan analisis teks. Pada bab terbaru ini, Anda meninjau penggunaan cosine similarity untuk mengidentifikasi teks yang saling mirip.
Pada latihan ini, Anda akan mengeksplorasi kemungkinan nyata kegagalan dalam menggunakan analisis teks secara tepat. Anda akan menghitung cosine similarity untuk bab-bab dalam buku Animal Farm, tanpa menghapus stop word.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di R
Instruksi latihan
- Tinjau kode yang disediakan untuk membuat hitungan kata. Bagian ini sudah diselesaikan untuk Anda.
- Dengan fungsi
pairwise_similarity()dariwidyr, hitung cosine similarity untuk setiap bab pada kolomchapter. - Urutkan hasil dengan nilai
similaritytertinggi terlebih dahulu. - Hitung rata-rata (
mean) dari nilaisimilarity.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create word counts
animal_farm_counts <- animal_farm %>%
unnest_tokens(word, text_column) %>%
count(chapter, word)
# Calculate the cosine similarity by chapter, using words
comparisons <- animal_farm_counts %>%
___(___, ___, n) %>%
arrange(desc(___))
# Print the mean of the similarity values
comparisons %>%
summarize(mean = ___(___))