MulaiMulai sekarang secara gratis

Bagaimana bigram memengaruhi word cloud?

Sekarang setelah Anda membuat DTM bigram, Anda dapat memeriksanya dan membuat ulang word cloud. Metode tokenisasi baru ini memengaruhi bukan hanya matriksnya, tetapi juga visual atau pemodelan apa pun yang berbasis pada matriks tersebut.

Ingat bagaimana "Marvin" dan "Gaye" merupakan istilah terpisah dalam word cloud chardonnay? Dengan bigram, tokenisasi mengambil semua kombinasi dua kata. Amati apa yang terjadi pada word cloud dalam latihan ini.

Latihan ini menggunakan str_subset dari stringr. Perlu diingat, kursus DataCamp lainnya membahas regular expression secara lebih mendalam. Sebagai pengingat, regular expression ^ mencocokkan posisi awal dalam bigram latihan ini.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

Tweet tentang chardonnay telah dibersihkan dan diatur menjadi DTM bernama bigram_dtm.

  • Buat bigram_dtm_m dengan mengonversi bigram_dtm menjadi matriks.
  • Buat objek freq yang berisi frekuensi kata dengan menerapkan colSums() pada bigram_dtm_m.
  • Ekstrak vektor karakter dari kombinasi kata dengan names(freq) dan simpan hasilnya ke bi_words.
  • Teruskan bi_words ke str_subset() dengan pola pencocokan "^marvin" untuk meninjau semua bigram yang diawali dengan "marvin".
  • Plot wordcloud() sederhana dengan meneruskan bi_words, freq, dan max.words = 15 ke dalam fungsi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Edit dan Jalankan Kode