Memeriksa model Anda

Setelah Anda membangun pengklasifikasi "fake news", Anda akan menyelidiki apa yang telah dipelajari olehnya. Anda dapat memetakan bobot vektor penting kembali ke kata-kata sebenarnya menggunakan beberapa teknik inspeksi sederhana.

Anda memiliki tfidf Naive Bayes classifier yang berkinerja baik tersedia sebagai nb_classifier, dan vektor sebagai tfidf_vectorizer.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Instruksi latihan

Simpan label kelas sebagai class_labels dengan mengakses atribut .classes_ dari nb_classifier.
Ekstrak fitur menggunakan metode .get_feature_names() dari tfidf_vectorizer.
Buat array hasil zip dari koefisien classifier dengan nama fitur dan urutkan berdasarkan koefisiennya. Untuk melakukan ini, pertama gunakan zip() dengan argumen nb_classifier.coef_[0] dan feature_names. Lalu, gunakan sorted() pada hasil tersebut.
Cetak 20 fitur berbobot teratas untuk label pertama dari class_labels dan cetak 20 fitur berbobot paling bawah untuk label kedua dari class_labels. Ini telah disiapkan untuk Anda.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Get the class labels: class_labels
class_labels = ____

# Extract the features: feature_names
feature_names = ____

# Zip the feature names together with the coefficient array and sort by weights: feat_with_weights
feat_with_weights = ____(____(____, ____))

# Print the first class label and the top 20 feat_with_weights entries
print(class_labels[0], feat_with_weights[:20])

# Print the second class label and the bottom 20 feat_with_weights entries
print(class_labels[1], feat_with_weights[-20:])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan beberapa konsep dasar NLP, seperti tokenisasi kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan mempelajari cara menangani teks non-Inggris dan tokenisasi yang lebih menantang yang mungkin Anda temui.

Exercise 1: Pengantar regular expression Exercise 2: Pola yang mana?Exercise 3: Berlatih regular expression: re.split() dan re.findall()Exercise 4: Pengenalan tokenisasi Exercise 5: Tokenisasi kata dengan NLTK Exercise 6: Lebih banyak regex dengan re.search()Exercise 7: Tokenisasi lanjutan dengan NLTK dan regex Exercise 8: Memilih sebuah tokenizer Exercise 9: Regex dengan tokenisasi NLTK Exercise 10: Tokenisasi non-ascii Exercise 11: Membuat grafik panjang kata dengan NLTK Exercise 12: Latihan membuat bagan

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat diterapkan pada teks apa pun di dunia nyata. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: bag-of-words dan Tf-idf menggunakan NLTK, serta pustaka baru, Gensim.

Exercise 1: Menghitung kata dengan bag-of-words Exercise 2: Pemilih bag-of-words Exercise 3: Membangun Counter dengan bag-of-words Exercise 4: Prapemrosesan teks sederhana Exercise 5: Langkah praproses teks Exercise 6: Latihan prapemrosesan teks Exercise 7: Pengenalan gensim Exercise 8: Apa itu vektor kata?Exercise 9: Membuat dan melakukan kueri korpus dengan gensim Exercise 10: Bag-of-words dengan Gensim Exercise 11: Tf-idf dengan gensim Exercise 12: Apa itu tf-idf?Exercise 13: Tf-idf dengan Wikipedia

Bab ini akan memperkenalkan topik yang sedikit lebih lanjut: pengenalan entitas bernama. Anda akan belajar mengidentifikasi siapa, apa, dan di mana dari teks Anda menggunakan model pralatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan mempelajari cara menggunakan beberapa pustaka baru, polyglot dan spaCy, untuk menambah peranti NLP Anda.

Exercise 1: Pengenalan Entitas Bernama Exercise 2: NER dengan NLTK Exercise 3: Latihan membuat grafik Exercise 4: Pustaka Stanford dengan NLTK Exercise 5: Pengenalan SpaCy Exercise 6: Membandingkan NER NLTK dengan spaCy Exercise 7: Kategori NER spaCy Exercise 8: NER Multibahasa dengan polyglot Exercise 9: NER bahasa Prancis dengan polyglot I Exercise 10: NER bahasa Prancis dengan polyglot II Exercise 11: NER bahasa Spanyol dengan polyglot

Anda akan menerapkan dasar-dasar yang telah dipelajari bersama Machine Learning terawasi untuk membangun detektor "berita palsu". Anda akan mulai dengan mempelajari dasar-dasar Machine Learning terawasi, lalu melangkah maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi serta mengklasifikasikan artikel berita palsu.

Exercise 1: Mengklasifikasikan berita palsu menggunakan supervised learning dengan NLP Exercise 2: Fitur mana yang mungkin?Exercise 3: Pelatihan dan pengujian Exercise 4: Membangun vektor hitung kata dengan scikit-learn Exercise 5: CountVectorizer untuk klasifikasi teks Exercise 6: TfidfVectorizer untuk klasifikasi teks Exercise 7: Memeriksa vektor Exercise 8: Melatih dan menguji model klasifikasi dengan scikit-learn Exercise 9: Model klasifikasi teks Exercise 10: Melatih dan menguji model "fake news" dengan CountVectorizer Exercise 11: Melatih dan menguji model "fake news" dengan TfidfVectorizer Exercise 12: NLP sederhana, masalah kompleks Exercise 13: Meningkatkan model Exercise 14: Meningkatkan model Anda Exercise 15: Memeriksa model Anda

Latihan Saat Ini