Temizleme ve sayma

twitter_data içindeki, şikayet olarak sınıflandırılan sadece havayolu tweet'lerinin içeriğini keşfetmek için durak kelimeleri kaldır.

Bu egzersiz, kursun bir parçasıdır

R ile Metin Analizine Giriş

Kursa Göz Atın

Egzersiz talimatları

twitter_data içindeki tweet'leri tokenlaştır. Tokenlaştırılmış kelimelerin olduğu sütunun adını word yap.
Tokenlaştırılmış twitter_data'dan varsayılan durak kelimeleri kaldır.
Yalnızca şikayetleri tutacak şekilde filtrele.
Tokenlaştırılmış ve temizlenmiş metni kullanarak kelime sayılarını hesapla ve sayıya göre azalan düzende sırala.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)

Kodu Düzenle ve Çalıştır