1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Ngôn ngữ Nói bằng Python

Connected

Bài tập

Tạo bộ phân loại văn bản từ lời nói

Giờ bạn đã chuyển âm một số dữ liệu audio từ cuộc gọi khách hàng, chúng ta sẽ xây dựng một mô hình để phân loại xem văn bản từ cuộc gọi đó là pre_purchase hay post_purchase.

Chúng ta có 45 ví dụ cho cuộc gọi pre_purchase và 57 ví dụ cho cuộc gọi post_purchase.

Dữ liệu dùng để huấn luyện mô hình được lưu trong train_df và dữ liệu để mô hình dự đoán được lưu trong test_df.

Hãy thử in .head() của từng bảng này ra console.

Chúng ta sẽ xây dựng một sklearn pipeline dùng CountVectorizer() và TfidfTransformer() để chuyển các mẫu văn bản thành số, rồi dùng bộ phân loại MultinomialNB() để học xem mỗi mẫu thuộc hạng mục nào.

Mô hình này hoạt động tốt với ví dụ nhỏ ở đây, nhưng với lượng văn bản lớn hơn, bạn có thể cân nhắc các phương pháp tinh vi hơn.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo text_classifier bằng CountVectorizer(), TfidfTransformer(), và MultinomialNB().
  • Fit text_classifier trên train_df.text và train_df.label.