Meningkatkan model Anda

Tugas Anda pada latihan ini adalah menguji beberapa nilai alpha yang berbeda menggunakan vektor Tfidf untuk menentukan apakah ada kombinasi yang performanya lebih baik.

Himpunan latih dan uji telah dibuat, dan tfidf_vectorizer, tfidf_train, serta tfidf_test telah dihitung.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Instruksi latihan

Buat daftar nilai alpha yang akan dicoba menggunakan np.arange(). Nilainya harus berkisar dari 0 hingga 1 dengan langkah 0.1.
Buat fungsi train_and_predict() yang menerima satu argumen: alpha. Fungsi tersebut harus:
- Menginstansiasi pengklasifikasi MultinomialNB dengan alpha=alpha.
- Melatihnya pada data latih.
- Menghitung prediksi pada data uji.
- Menghitung dan mengembalikan skor akurasi.
Dengan menggunakan for loop, cetak alpha, score, dan sebuah baris baru di antaranya. Gunakan fungsi train_and_predict() Anda untuk menghitung score. Apakah skornya berubah seiring perubahan alpha? Berapa nilai alpha terbaik?

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create the list of alphas: alphas
alphas = ____

# Define train_and_predict()
def ____(____):
    # Instantiate the classifier: nb_classifier
    nb_classifier = ____
    # Fit to the training data
    ____
    # Predict the labels: pred
    pred = ____
    # Compute accuracy: score
    score = ____
    return score

# Iterate over the alphas and print the corresponding score
for alpha in alphas:
    print('Alpha: ', alpha)
    print('Score: ', ____)
    print()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan beberapa konsep dasar NLP, seperti tokenisasi kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan mempelajari cara menangani teks non-Inggris dan tokenisasi yang lebih menantang yang mungkin Anda temui.

Exercise 1: Pengantar regular expression Exercise 2: Pola yang mana?Exercise 3: Berlatih regular expression: re.split() dan re.findall()Exercise 4: Pengenalan tokenisasi Exercise 5: Tokenisasi kata dengan NLTK Exercise 6: Lebih banyak regex dengan re.search()Exercise 7: Tokenisasi lanjutan dengan NLTK dan regex Exercise 8: Memilih sebuah tokenizer Exercise 9: Regex dengan tokenisasi NLTK Exercise 10: Tokenisasi non-ascii Exercise 11: Membuat grafik panjang kata dengan NLTK Exercise 12: Latihan membuat bagan

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat diterapkan pada teks apa pun di dunia nyata. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: bag-of-words dan Tf-idf menggunakan NLTK, serta pustaka baru, Gensim.

Exercise 1: Menghitung kata dengan bag-of-words Exercise 2: Pemilih bag-of-words Exercise 3: Membangun Counter dengan bag-of-words Exercise 4: Prapemrosesan teks sederhana Exercise 5: Langkah praproses teks Exercise 6: Latihan prapemrosesan teks Exercise 7: Pengenalan gensim Exercise 8: Apa itu vektor kata?Exercise 9: Membuat dan melakukan kueri korpus dengan gensim Exercise 10: Bag-of-words dengan Gensim Exercise 11: Tf-idf dengan gensim Exercise 12: Apa itu tf-idf?Exercise 13: Tf-idf dengan Wikipedia

Bab ini akan memperkenalkan topik yang sedikit lebih lanjut: pengenalan entitas bernama. Anda akan belajar mengidentifikasi siapa, apa, dan di mana dari teks Anda menggunakan model pralatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan mempelajari cara menggunakan beberapa pustaka baru, polyglot dan spaCy, untuk menambah peranti NLP Anda.

Exercise 1: Pengenalan Entitas Bernama Exercise 2: NER dengan NLTK Exercise 3: Latihan membuat grafik Exercise 4: Pustaka Stanford dengan NLTK Exercise 5: Pengenalan SpaCy Exercise 6: Membandingkan NER NLTK dengan spaCy Exercise 7: Kategori NER spaCy Exercise 8: NER Multibahasa dengan polyglot Exercise 9: NER bahasa Prancis dengan polyglot I Exercise 10: NER bahasa Prancis dengan polyglot II Exercise 11: NER bahasa Spanyol dengan polyglot

Anda akan menerapkan dasar-dasar yang telah dipelajari bersama Machine Learning terawasi untuk membangun detektor "berita palsu". Anda akan mulai dengan mempelajari dasar-dasar Machine Learning terawasi, lalu melangkah maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi serta mengklasifikasikan artikel berita palsu.

Exercise 1: Mengklasifikasikan berita palsu menggunakan supervised learning dengan NLP Exercise 2: Fitur mana yang mungkin?Exercise 3: Pelatihan dan pengujian Exercise 4: Membangun vektor hitung kata dengan scikit-learn Exercise 5: CountVectorizer untuk klasifikasi teks Exercise 6: TfidfVectorizer untuk klasifikasi teks Exercise 7: Memeriksa vektor Exercise 8: Melatih dan menguji model klasifikasi dengan scikit-learn Exercise 9: Model klasifikasi teks Exercise 10: Melatih dan menguji model "fake news" dengan CountVectorizer Exercise 11: Melatih dan menguji model "fake news" dengan TfidfVectorizer Exercise 12: NLP sederhana, masalah kompleks Exercise 13: Meningkatkan model Exercise 14: Meningkatkan model Anda

Latihan Saat Ini

Exercise 15: Memeriksa model Anda