Bag-of-words dengan Gensim

Sekarang, Anda akan menggunakan gensim corpus dan kamus (dictionary) baru Anda untuk melihat istilah yang paling umum per dokumen dan di seluruh dokumen. Anda dapat menggunakan kamus untuk melihat istilahnya. Cobalah menebak topiknya dan silakan jelajahi lebih banyak dokumen di IPython Shell!

Anda memiliki akses ke objek dictionary dan corpus yang Anda buat pada latihan sebelumnya, serta Python defaultdict dan itertools untuk membantu pembuatan struktur data perantara untuk analisis.

defaultdict memungkinkan kita menginisialisasi dictionary yang akan memberikan nilai default untuk key yang tidak ada. Dengan memberikan argumen int, kita memastikan bahwa setiap key yang tidak ada otomatis diberi nilai default 0. Ini ideal untuk menyimpan jumlah kemunculan kata pada latihan ini.
itertools.chain.from_iterable() memungkinkan kita melakukan iterasi melalui sekumpulan urutan seolah-olah itu satu urutan berkelanjutan. Dengan fungsi ini, kita dapat dengan mudah melakukan iterasi melalui objek corpus (yang merupakan daftar berisi daftar).

Dokumen kelima dari corpus disimpan dalam variabel doc, yang telah diurutkan secara menurun.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan beberapa konsep dasar NLP, seperti tokenisasi kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan mempelajari cara menangani teks non-Inggris dan tokenisasi yang lebih menantang yang mungkin Anda temui.

Exercise 1: Pengantar regular expression Exercise 2: Pola yang mana?Exercise 3: Berlatih regular expression: re.split() dan re.findall()Exercise 4: Pengenalan tokenisasi Exercise 5: Tokenisasi kata dengan NLTK Exercise 6: Lebih banyak regex dengan re.search()Exercise 7: Tokenisasi lanjutan dengan NLTK dan regex Exercise 8: Memilih sebuah tokenizer Exercise 9: Regex dengan tokenisasi NLTK Exercise 10: Tokenisasi non-ascii Exercise 11: Membuat grafik panjang kata dengan NLTK Exercise 12: Latihan membuat bagan

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat diterapkan pada teks apa pun di dunia nyata. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: bag-of-words dan Tf-idf menggunakan NLTK, serta pustaka baru, Gensim.

Exercise 1: Menghitung kata dengan bag-of-words Exercise 2: Pemilih bag-of-words Exercise 3: Membangun Counter dengan bag-of-words Exercise 4: Prapemrosesan teks sederhana Exercise 5: Langkah praproses teks Exercise 6: Latihan prapemrosesan teks Exercise 7: Pengenalan gensim Exercise 8: Apa itu vektor kata?Exercise 9: Membuat dan melakukan kueri korpus dengan gensim Exercise 10: Bag-of-words dengan Gensim

Latihan Saat Ini

Exercise 11: Tf-idf dengan gensim Exercise 12: Apa itu tf-idf?Exercise 13: Tf-idf dengan Wikipedia

Bab ini akan memperkenalkan topik yang sedikit lebih lanjut: pengenalan entitas bernama. Anda akan belajar mengidentifikasi siapa, apa, dan di mana dari teks Anda menggunakan model pralatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan mempelajari cara menggunakan beberapa pustaka baru, polyglot dan spaCy, untuk menambah peranti NLP Anda.

Exercise 1: Pengenalan Entitas Bernama Exercise 2: NER dengan NLTK Exercise 3: Latihan membuat grafik Exercise 4: Pustaka Stanford dengan NLTK Exercise 5: Pengenalan SpaCy Exercise 6: Membandingkan NER NLTK dengan spaCy Exercise 7: Kategori NER spaCy Exercise 8: NER Multibahasa dengan polyglot Exercise 9: NER bahasa Prancis dengan polyglot I Exercise 10: NER bahasa Prancis dengan polyglot II Exercise 11: NER bahasa Spanyol dengan polyglot

Anda akan menerapkan dasar-dasar yang telah dipelajari bersama Machine Learning terawasi untuk membangun detektor "berita palsu". Anda akan mulai dengan mempelajari dasar-dasar Machine Learning terawasi, lalu melangkah maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi serta mengklasifikasikan artikel berita palsu.

Exercise 1: Mengklasifikasikan berita palsu menggunakan supervised learning dengan NLP Exercise 2: Fitur mana yang mungkin?Exercise 3: Pelatihan dan pengujian Exercise 4: Membangun vektor hitung kata dengan scikit-learn Exercise 5: CountVectorizer untuk klasifikasi teks Exercise 6: TfidfVectorizer untuk klasifikasi teks Exercise 7: Memeriksa vektor Exercise 8: Melatih dan menguji model klasifikasi dengan scikit-learn Exercise 9: Model klasifikasi teks Exercise 10: Melatih dan menguji model "fake news" dengan CountVectorizer Exercise 11: Melatih dan menguji model "fake news" dengan TfidfVectorizer Exercise 12: NLP sederhana, masalah kompleks Exercise 13: Meningkatkan model Exercise 14: Meningkatkan model Anda Exercise 15: Memeriksa model Anda