Persiapan data
Selama pemilu AS 2016, bot tweet Rusia digunakan untuk terus-menerus menyebarkan retorika politik kepada demokrat dan republikan. Anda diberikan himpunan data berisi tweet tersebut bernama russian_tweets. Anda memutuskan untuk mengklasifikasikan tweet ini sebagai condong ke kiri (demokrat) atau condong ke kanan (republikan). Sebelum Anda dapat membangun model klasifikasi, Anda perlu membersihkan dan menyiapkan teks untuk pemodelan.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Selesaikan proses tokenisasi dengan melakukan stemming pada token.
- Gunakan
cast_dtm()untuk membuat matriks dokumen-istilah (document-term matrix). - Beri bobot matriks dokumen-istilah menggunakan pembobotan tf-idf.
- Cetak matriksnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___