Membersihkan dan menghitung
Hapus stop words untuk menelusuri konten hanya dari tweet maskapai yang diklasifikasikan sebagai keluhan dalam twitter_data.
Latihan ini adalah bagian dari kursus
Pengantar Analisis Teks di R
Petunjuk latihan
- Tokenisasikan tweet dalam
twitter_data. Beri nama kolom dengan kata yang ditokenisasi sebagaiword. - Hapus stop words default dari
twitter_datayang telah ditokenisasi. - Saring agar hanya menyisakan keluhan.
- Hitung frekuensi kata menggunakan teks yang sudah ditokenisasi dan dibersihkan, lalu urutkan menurun berdasarkan jumlahnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)