Matriks jarang (sparse matrices)
Dalam video pelajaran, Anda mempelajari tentang matriks jarang. Matriks jarang dapat menjadi mimpi buruk komputasi ketika jumlah dokumen teks dan jumlah kata unik bertambah. Membuat representasi kata dari tweet sangat mudah menghasilkan matriks jarang karena penggunaan emoji, bahasa gaul, akronim, dan bentuk bahasa lainnya.
Dalam latihan ini, Anda akan mengikuti langkah-langkah untuk menghitung seberapa jarang himpunan data tweet berbahasa Rusia. Perhatikan bahwa ini adalah contoh kecil tentang betapa cepatnya analisis teks dapat menjadi masalah komputasi yang besar.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)