Bagaimana bigram memengaruhi word cloud?
Sekarang setelah Anda membuat DTM bigram, Anda dapat memeriksanya dan membuat ulang word cloud. Metode tokenisasi baru ini memengaruhi bukan hanya matriksnya, tetapi juga visual atau pemodelan apa pun yang berbasis pada matriks tersebut.
Ingat bagaimana "Marvin" dan "Gaye" merupakan istilah terpisah dalam word cloud chardonnay? Dengan bigram, tokenisasi mengambil semua kombinasi dua kata. Amati apa yang terjadi pada word cloud dalam latihan ini.
Latihan ini menggunakan str_subset dari stringr. Perlu diingat, kursus DataCamp lainnya membahas regular expression secara lebih mendalam. Sebagai pengingat, regular expression ^ mencocokkan posisi awal dalam bigram latihan ini.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Tweet tentang chardonnay telah dibersihkan dan diatur menjadi DTM bernama bigram_dtm.
- Buat
bigram_dtm_mdengan mengonversibigram_dtmmenjadi matriks. - Buat objek
freqyang berisi frekuensi kata dengan menerapkancolSums()padabigram_dtm_m. - Ekstrak vektor karakter dari kombinasi kata dengan
names(freq)dan simpan hasilnya kebi_words. - Teruskan
bi_wordskestr_subset()dengan pola pencocokan"^marvin"untuk meninjau semua bigram yang diawali dengan "marvin". - Plot
wordcloud()sederhana dengan meneruskanbi_words,freq, danmax.words = 15ke dalam fungsi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)