MulaiMulai sekarang secara gratis

Buat dictionary dan corpus

Untuk menjalankan model topik LDA, Anda harus mendefinisikan dictionary dan corpus terlebih dahulu, karena keduanya akan dimasukkan ke dalam model. Anda akan melanjutkan bekerja dengan data teks yang sudah dibersihkan pada latihan sebelumnya. Artinya, text_clean sudah tersedia untuk Anda lanjutkan, dan Anda akan menggunakannya untuk membuat dictionary dan corpus.

Latihan ini akan memerlukan waktu eksekusi sedikit lebih lama dari biasanya.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Impor paket gensim dan corpora dari gensim secara terpisah.
  • Definisikan dictionary Anda dengan menjalankan fungsi yang benar pada data bersih text_clean.
  • Definisikan corpus dengan menjalankan doc2bow pada setiap potongan teks dalam text_clean.
  • Cetak hasilnya agar Anda dapat melihat seperti apa dictionary dan corpus.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the packages
import ____
from ____ import ____

# Define the dictionary
dictionary = ____.____(____)

# Define the corpus 
corpus = [dictionary.____(text) for ___ in ____]

# Print corpus and dictionary
print(____)
print(____)
Edit dan Jalankan Kode