MulaiMulai sekarang secara gratis

TfidfVectorizer untuk klasifikasi teks

Mirip dengan CountVectorizer berbentuk sparse yang dibuat pada latihan sebelumnya, Anda akan membuat vektor tf-idf untuk dokumen Anda. Anda akan menyiapkan TfidfVectorizer dan menelusuri beberapa fiturnya.

Dalam latihan ini, Anda akan menggunakan pandas dan sklearn bersama dengan X_train, y_train serta X_test, y_test DataFrame dan Series yang sama seperti yang Anda buat pada latihan terakhir.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Impor TfidfVectorizer dari sklearn.feature_extraction.text.
  • Buat objek TfidfVectorizer bernama tfidf_vectorizer. Saat melakukannya, tentukan argumen kata kunci stop_words="english" dan max_df=0.7.
  • Lakukan fit dan transform pada data pelatihan.
  • Transformasikan data uji.
  • Cetak 10 fitur pertama dari tfidf_vectorizer.
  • Cetak 5 vektor pertama dari data pelatihan tfidf menggunakan slicing pada atribut .A (atau array) dari tfidf_train.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Edit dan Jalankan Kode