TfidfVectorizer untuk klasifikasi teks

Mirip dengan CountVectorizer berbentuk sparse yang dibuat pada latihan sebelumnya, Anda akan membuat vektor tf-idf untuk dokumen Anda. Anda akan menyiapkan TfidfVectorizer dan menelusuri beberapa fiturnya.

Dalam latihan ini, Anda akan menggunakan pandas dan sklearn bersama dengan X_train, y_train serta X_test, y_test DataFrame dan Series yang sama seperti yang Anda buat pada latihan terakhir.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Instruksi latihan

Impor TfidfVectorizer dari sklearn.feature_extraction.text.
Buat objek TfidfVectorizer bernama tfidf_vectorizer. Saat melakukannya, tentukan argumen kata kunci stop_words="english" dan max_df=0.7.
Lakukan fit dan transform pada data pelatihan.
Transformasikan data uji.
Cetak 10 fitur pertama dari tfidf_vectorizer.
Cetak 5 vektor pertama dari data pelatihan tfidf menggunakan slicing pada atribut .A (atau array) dari tfidf_train.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan beberapa konsep dasar NLP, seperti tokenisasi kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan mempelajari cara menangani teks non-Inggris dan tokenisasi yang lebih menantang yang mungkin Anda temui.

Exercise 1: Pengantar regular expression Exercise 2: Pola yang mana?Exercise 3: Berlatih regular expression: re.split() dan re.findall()Exercise 4: Pengenalan tokenisasi Exercise 5: Tokenisasi kata dengan NLTK Exercise 6: Lebih banyak regex dengan re.search()Exercise 7: Tokenisasi lanjutan dengan NLTK dan regex Exercise 8: Memilih sebuah tokenizer Exercise 9: Regex dengan tokenisasi NLTK Exercise 10: Tokenisasi non-ascii Exercise 11: Membuat grafik panjang kata dengan NLTK Exercise 12: Latihan membuat bagan

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat diterapkan pada teks apa pun di dunia nyata. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: bag-of-words dan Tf-idf menggunakan NLTK, serta pustaka baru, Gensim.

Exercise 1: Menghitung kata dengan bag-of-words Exercise 2: Pemilih bag-of-words Exercise 3: Membangun Counter dengan bag-of-words Exercise 4: Prapemrosesan teks sederhana Exercise 5: Langkah praproses teks Exercise 6: Latihan prapemrosesan teks Exercise 7: Pengenalan gensim Exercise 8: Apa itu vektor kata?Exercise 9: Membuat dan melakukan kueri korpus dengan gensim Exercise 10: Bag-of-words dengan Gensim Exercise 11: Tf-idf dengan gensim Exercise 12: Apa itu tf-idf?Exercise 13: Tf-idf dengan Wikipedia

Bab ini akan memperkenalkan topik yang sedikit lebih lanjut: pengenalan entitas bernama. Anda akan belajar mengidentifikasi siapa, apa, dan di mana dari teks Anda menggunakan model pralatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan mempelajari cara menggunakan beberapa pustaka baru, polyglot dan spaCy, untuk menambah peranti NLP Anda.

Exercise 1: Pengenalan Entitas Bernama Exercise 2: NER dengan NLTK Exercise 3: Latihan membuat grafik Exercise 4: Pustaka Stanford dengan NLTK Exercise 5: Pengenalan SpaCy Exercise 6: Membandingkan NER NLTK dengan spaCy Exercise 7: Kategori NER spaCy Exercise 8: NER Multibahasa dengan polyglot Exercise 9: NER bahasa Prancis dengan polyglot I Exercise 10: NER bahasa Prancis dengan polyglot II Exercise 11: NER bahasa Spanyol dengan polyglot

Anda akan menerapkan dasar-dasar yang telah dipelajari bersama Machine Learning terawasi untuk membangun detektor "berita palsu". Anda akan mulai dengan mempelajari dasar-dasar Machine Learning terawasi, lalu melangkah maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi serta mengklasifikasikan artikel berita palsu.

Exercise 1: Mengklasifikasikan berita palsu menggunakan supervised learning dengan NLP Exercise 2: Fitur mana yang mungkin?Exercise 3: Pelatihan dan pengujian Exercise 4: Membangun vektor hitung kata dengan scikit-learn Exercise 5: CountVectorizer untuk klasifikasi teks Exercise 6: TfidfVectorizer untuk klasifikasi teks

Latihan Saat Ini

Exercise 7: Memeriksa vektor Exercise 8: Melatih dan menguji model klasifikasi dengan scikit-learn Exercise 9: Model klasifikasi teks Exercise 10: Melatih dan menguji model "fake news" dengan CountVectorizer Exercise 11: Melatih dan menguji model "fake news" dengan TfidfVectorizer Exercise 12: NLP sederhana, masalah kompleks Exercise 13: Meningkatkan model Exercise 14: Meningkatkan model Anda Exercise 15: Memeriksa model Anda