TfidfVectorizer untuk klasifikasi teks
Mirip dengan CountVectorizer berbentuk sparse yang dibuat pada latihan sebelumnya, Anda akan membuat vektor tf-idf untuk dokumen Anda. Anda akan menyiapkan TfidfVectorizer dan menelusuri beberapa fiturnya.
Dalam latihan ini, Anda akan menggunakan pandas dan sklearn bersama dengan X_train, y_train serta X_test, y_test DataFrame dan Series yang sama seperti yang Anda buat pada latihan terakhir.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor
TfidfVectorizerdarisklearn.feature_extraction.text. - Buat objek
TfidfVectorizerbernamatfidf_vectorizer. Saat melakukannya, tentukan argumen kata kuncistop_words="english"danmax_df=0.7. - Lakukan fit dan transform pada data pelatihan.
- Transformasikan data uji.
- Cetak 10 fitur pertama dari
tfidf_vectorizer. - Cetak 5 vektor pertama dari data pelatihan tfidf menggunakan slicing pada atribut
.A(atau array) daritfidf_train.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])