BaşlayınÜcretsiz Başlayın

Seyrek matrisler

Video dersinde seyrek matrisleri öğrendin. Metin belgelerinin sayısı ve benzersiz kelimelerin sayısı arttıkça seyrek matrisler hesaplama açısından kâbusa dönüşebilir. Tweet’lerle kelime temsilleri oluşturmak, emojiler, argo, kısaltmalar ve dilin diğer kullanımları yüzünden kolayca seyrek matrisler yaratır.

Bu egzersizde, Rusça tweet veri kümesinin ne kadar seyrek olduğunu hesaplamak için adımları tek tek uygulayacaksın. Bunun, metin analizinin ne kadar hızlı büyük bir hesaplama problemine dönüşebileceğine dair küçük bir örnek olduğunu unutma.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Tokenize and remove stop words
tidy_tweets <- russian_tweets %>%
  ___(word, content) %>%
  ___(stop_words)
# Count by word
unique_words <- tidy_tweets %>%
  count(___)
Kodu Düzenle ve Çalıştır