MulaiMulai sekarang secara gratis

Membersihkan dan menghitung

Hapus stop words untuk menelusuri konten hanya dari tweet maskapai yang diklasifikasikan sebagai keluhan dalam twitter_data.

Latihan ini adalah bagian dari kursus

Pengantar Analisis Teks di R

Lihat Kursus

Petunjuk latihan

  • Tokenisasikan tweet dalam twitter_data. Beri nama kolom dengan kata yang ditokenisasi sebagai word.
  • Hapus stop words default dari twitter_data yang telah ditokenisasi.
  • Saring agar hanya menyisakan keluhan.
  • Hitung frekuensi kata menggunakan teks yang sudah ditokenisasi dan dibersihkan, lalu urutkan menurun berdasarkan jumlahnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)
Edit dan Jalankan Kode