Seyrek matrisler
Video dersinde seyrek matrisleri öğrendin. Metin belgelerinin sayısı ve benzersiz kelimelerin sayısı arttıkça seyrek matrisler hesaplama açısından kâbusa dönüşebilir. Tweet’lerle kelime temsilleri oluşturmak, emojiler, argo, kısaltmalar ve dilin diğer kullanımları yüzünden kolayca seyrek matrisler yaratır.
Bu egzersizde, Rusça tweet veri kümesinin ne kadar seyrek olduğunu hesaplamak için adımları tek tek uygulayacaksın. Bunun, metin analizinin ne kadar hızlı büyük bir hesaplama problemine dönüşebileceğine dair küçük bir örnek olduğunu unutma.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
___(word, content) %>%
___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
count(___)