CountVectorizer untuk klasifikasi teks
Saatnya mulai membangun pengklasifikasi teks Anda! Data telah dimuat ke dalam DataFrame bernama df. Jelajahi di IPython Shell untuk menelusuri kolom mana yang dapat Anda gunakan. Metode .head() sangat informatif.
Dalam latihan ini, Anda akan menggunakan pandas bersama scikit-learn untuk membuat vektorisasi teks jarang yang dapat Anda gunakan untuk melatih dan menguji model supervised sederhana. Untuk memulai, Anda akan menyiapkan CountVectorizer dan meninjau beberapa fiturnya.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Impor
CountVectorizerdarisklearn.feature_extraction.textdantrain_test_splitdarisklearn.model_selection. - Buat Series
yuntuk digunakan sebagai label dengan menetapkan atribut.labeldaridfkey. - Dengan menggunakan
df["text"](fitur) dany(label), buat himpunan latih dan uji menggunakantrain_test_split(). Gunakantest_sizesebesar0.33danrandom_statesebesar53. - Buat objek
CountVectorizerbernamacount_vectorizer. Pastikan Anda menentukan argumen kata kuncistop_words="english"agar stop word dihapus. - Fit dan transformasikan data latih
X_trainmenggunakan metode.fit_transform()dari objekCountVectorizerAnda. Lakukan hal yang sama untuk data ujiX_test, tetapi gunakan metode.transform(). - Cetak 10 fitur pertama dari
count_vectorizermenggunakan metodenya.get_feature_names().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the necessary modules
____
____
# Print the head of df
print(df.head())
# Create a series to store the labels: y
y = ____
# Create training and test sets
X_train, X_test, y_train, y_test = ____
# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____
# Transform the training data using only the 'text' column values: count_train
count_train = ____
# Transform the test data using only the 'text' column values: count_test
count_test = ____
# Print the first 10 features of the count_vectorizer
print(____[:10])