Temizleme ve sayma
twitter_data içindeki, şikayet olarak sınıflandırılan sadece havayolu tweet'lerinin içeriğini keşfetmek için durak kelimeleri kaldır.
Bu egzersiz
R ile Metin Analizine Giriş
kursunun bir parçasıdırEgzersiz talimatları
twitter_dataiçindeki tweet'leri tokenlaştır. Tokenlaştırılmış kelimelerin olduğu sütunun adınıwordyap.- Tokenlaştırılmış
twitter_data'dan varsayılan durak kelimeleri kaldır. - Yalnızca şikayetleri tutacak şekilde filtrele.
- Tokenlaştırılmış ve temizlenmiş metni kullanarak kelime sayılarını hesapla ve sayıya göre azalan düzende sırala.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)