MulaiMulai sekarang secara gratis

CountVectorizer untuk klasifikasi teks

Saatnya mulai membangun pengklasifikasi teks Anda! Data telah dimuat ke dalam DataFrame bernama df. Jelajahi di IPython Shell untuk menelusuri kolom mana yang dapat Anda gunakan. Metode .head() sangat informatif.

Dalam latihan ini, Anda akan menggunakan pandas bersama scikit-learn untuk membuat vektorisasi teks jarang yang dapat Anda gunakan untuk melatih dan menguji model supervised sederhana. Untuk memulai, Anda akan menyiapkan CountVectorizer dan meninjau beberapa fiturnya.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Impor CountVectorizer dari sklearn.feature_extraction.text dan train_test_split dari sklearn.model_selection.
  • Buat Series y untuk digunakan sebagai label dengan menetapkan atribut .label dari df ke y.
  • Dengan menggunakan df["text"] (fitur) dan y (label), buat himpunan latih dan uji menggunakan train_test_split(). Gunakan test_size sebesar 0.33 dan random_state sebesar 53.
  • Buat objek CountVectorizer bernama count_vectorizer. Pastikan Anda menentukan argumen kata kunci stop_words="english" agar stop word dihapus.
  • Fit dan transformasikan data latih X_train menggunakan metode .fit_transform() dari objek CountVectorizer Anda. Lakukan hal yang sama untuk data uji X_test, tetapi gunakan metode .transform().
  • Cetak 10 fitur pertama dari count_vectorizer menggunakan metodenya .get_feature_names().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])
Edit dan Jalankan Kode