MulaiMulai sekarang secara gratis

Membangun Counter dengan bag-of-words

Pada latihan ini, Anda akan membangun counter bag-of-words pertama Anda (dalam kursus ini) menggunakan sebuah artikel Wikipedia, yang telah dimuat sebagai article. Cobalah membuat bag-of-words tanpa melihat seluruh teks artikel, lalu tebak topiknya! Jika Anda ingin mengintip judulnya di akhir, kami sertakan sebagai article_title. Perhatikan bahwa teks artikel ini hampir tidak mengalami praproses dari entri basis data Wikipedia mentah.

word_tokenize telah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Impor Counter dari collections.
  • Gunakan word_tokenize() untuk memecah artikel menjadi token.
  • Gunakan list comprehension dengan t sebagai variabel iterator untuk mengonversi semua token menjadi huruf kecil. Metode .lower() mengonversi teks menjadi huruf kecil.
  • Buat counter bag-of-words bernama bow_simple dengan menggunakan Counter() dengan lower_tokens sebagai argumen.
  • Gunakan metode .most_common() dari bow_simple untuk mencetak 10 token yang paling umum.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import Counter
____

# Tokenize the article: tokens
tokens = ____

# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]

# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____

# Print the 10 most common tokens
print(____)
Edit dan Jalankan Kode