Buat dictionary dan corpus
Untuk menjalankan model topik LDA, Anda harus mendefinisikan dictionary dan corpus terlebih dahulu, karena keduanya akan dimasukkan ke dalam model. Anda akan melanjutkan bekerja dengan data teks yang sudah dibersihkan pada latihan sebelumnya. Artinya, text_clean sudah tersedia untuk Anda lanjutkan, dan Anda akan menggunakannya untuk membuat dictionary dan corpus.
Latihan ini akan memerlukan waktu eksekusi sedikit lebih lama dari biasanya.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Impor paket gensim dan corpora dari gensim secara terpisah.
- Definisikan dictionary Anda dengan menjalankan fungsi yang benar pada data bersih
text_clean. - Definisikan corpus dengan menjalankan
doc2bowpada setiap potongan teks dalamtext_clean. - Cetak hasilnya agar Anda dapat melihat seperti apa
dictionarydancorpus.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)