Persiapan data
Selama pemilu AS 2016, bot tweet Rusia digunakan untuk terus-menerus menyebarkan retorika politik kepada demokrat dan republikan. Anda diberikan himpunan data berisi tweet tersebut bernama russian_tweets. Anda memutuskan untuk mengklasifikasikan tweet ini sebagai condong ke kiri (demokrat) atau condong ke kanan (republikan). Sebelum Anda dapat membangun model klasifikasi, Anda perlu membersihkan dan menyiapkan teks untuk pemodelan.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di R
Instruksi latihan
- Selesaikan proses tokenisasi dengan melakukan stemming pada token.
- Gunakan
cast_dtm()untuk membuat matriks dokumen-istilah (document-term matrix). - Beri bobot matriks dokumen-istilah menggunakan pembobotan tf-idf.
- Cetak matriksnya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___