BaşlayınÜcretsiz Başlayın

Temizleme ve sayma

twitter_data içindeki, şikayet olarak sınıflandırılan sadece havayolu tweet'lerinin içeriğini keşfetmek için durak kelimeleri kaldır.

Bu egzersiz

R ile Metin Analizine Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • twitter_data içindeki tweet'leri tokenlaştır. Tokenlaştırılmış kelimelerin olduğu sütunun adını word yap.
  • Tokenlaştırılmış twitter_data'dan varsayılan durak kelimeleri kaldır.
  • Yalnızca şikayetleri tutacak şekilde filtrele.
  • Tokenlaştırılmış ve temizlenmiş metni kullanarak kelime sayılarını hesapla ve sayıya göre azalan düzende sırala.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)
Kodu Düzenle ve Çalıştır