Créer un classifieur de texte issu de la parole
Vous avez maintenant transcrit des extraits audio d’appels clients ; nous allons créer un modèle pour classer le texte d’un appel client comme pre_purchase ou post_purchase.
Nous disposons de 45 exemples d’appels pre_purchase et de 57 exemples d’appels post_purchase.
Les données utilisées pour entraîner le modèle sont stockées dans train_df et celles sur lesquelles le modèle fera des prédictions dans test_df.
Essayez d’afficher le .head() de chacun dans la console.
Nous allons construire un sklearn pipeline utilisant CountVectorizer() et TfidfTransformer() pour convertir nos échantillons de texte en nombres, puis un classifieur MultinomialNB() pour apprendre à quelle catégorie appartient chaque échantillon.
Ce modèle fonctionnera bien sur notre petit exemple, mais pour de plus gros volumes de texte, vous pourriez envisager une approche plus sophistiquée.
Cet exercice fait partie du cours
Traitement du langage parlé en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
('vectorizer', ____),
('tfidf', ____),
('classifier', ____),
])
# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)