Buat pengklasifikasi teks bahasa lisan
Sekarang Anda telah mentranskripsikan sebagian data audio panggilan pelanggan, kita akan membangun model untuk mengklasifikasikan apakah teks dari panggilan pelanggan tersebut pre_purchase atau post_purchase.
Kita memiliki 45 contoh panggilan pre_purchase dan 57 contoh panggilan post_purchase.
Data yang akan digunakan model untuk pelatihan disimpan dalam train_df dan data yang akan diprediksi model disimpan dalam test_df.
Coba cetak .head() dari masing-masing ke konsol.
Kita akan membangun sebuah sklearn pipeline menggunakan CountVectorizer() dan TfidfTransformer() untuk mengonversi sampel teks menjadi angka, lalu menggunakan pengklasifikasi MultinomialNB() untuk mempelajari kategori setiap sampel.
Model ini akan bekerja baik untuk contoh kecil kita di sini, tetapi untuk jumlah teks yang lebih besar, Anda mungkin ingin mempertimbangkan pendekatan yang lebih canggih.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Lisan dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
('vectorizer', ____),
('tfidf', ____),
('classifier', ____),
])
# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)