Membangun Counter dengan bag-of-words
Pada latihan ini, Anda akan membangun counter bag-of-words pertama Anda (dalam kursus ini) menggunakan sebuah artikel Wikipedia, yang telah dimuat sebagai article. Cobalah membuat bag-of-words tanpa melihat seluruh teks artikel, lalu tebak topiknya! Jika Anda ingin mengintip judulnya di akhir, kami sertakan sebagai article_title. Perhatikan bahwa teks artikel ini hampir tidak mengalami praproses dari entri basis data Wikipedia mentah.
word_tokenize telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor
Counterdaricollections. - Gunakan
word_tokenize()untuk memecah artikel menjadi token. - Gunakan list comprehension dengan
tsebagai variabel iterator untuk mengonversi semua token menjadi huruf kecil. Metode.lower()mengonversi teks menjadi huruf kecil. - Buat counter bag-of-words bernama
bow_simpledengan menggunakanCounter()denganlower_tokenssebagai argumen. - Gunakan metode
.most_common()daribow_simpleuntuk mencetak 10 token yang paling umum.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import Counter
____
# Tokenize the article: tokens
tokens = ____
# Convert the tokens into lowercase: lower_tokens
lower_tokens = [____ for ____ in ____]
# Create a Counter with the lowercase tokens: bow_simple
bow_simple = ____
# Print the 10 most common tokens
print(____)