Seyrek matrisler
Video dersinde seyrek matrisleri öğrendin. Metin belgelerinin sayısı ve benzersiz kelimelerin sayısı arttıkça seyrek matrisler hesaplama açısından kâbusa dönüşebilir. Tweet’lerle kelime temsilleri oluşturmak, emojiler, argo, kısaltmalar ve dilin diğer kullanımları yüzünden kolayca seyrek matrisler yaratır.
Bu egzersizde, Rusça tweet veri kümesinin ne kadar seyrek olduğunu hesaplamak için adımları tek tek uygulayacaksın. Bunun, metin analizinin ne kadar hızlı büyük bir hesaplama problemine dönüşebileceğine dair küçük bir örnek olduğunu unutma.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)