Erstelle einen Textklassifikator für gesprochene Sprache
Jetzt, wo du einige Audiodaten aus Kundengesprächen transkribiert hast, bauen wir ein Modell, das klassifiziert, ob der Text aus dem Kundengespräch pre_purchase oder post_purchase ist.
Wir haben 45 Beispiele für pre_purchase-Anrufe und 57 Beispiele für post_purchase-Anrufe.
Die Daten, auf denen das Modell trainiert, sind in train_df gespeichert, und die Daten, auf denen das Modell vorhersagt, sind in test_df gespeichert.
Gib zur Übersicht jeweils die .head() dieser DataFrames in der Konsole aus.
Wir bauen eine sklearn pipeline mit CountVectorizer() und TfidfTransformer(), um unsere Textbeispiele in Zahlen zu konvertieren, und verwenden anschließend einen MultinomialNB()-Klassifikator, um zu lernen, zu welcher Kategorie jedes Beispiel gehört.
Dieses Modell funktioniert für unser kleines Beispiel hier gut, aber bei größeren Textmengen solltest du etwas Ausgereifteres in Betracht ziehen.
Diese Übung ist Teil des Kurses
Verarbeitung gesprochener Sprache in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
('vectorizer', ____),
('tfidf', ____),
('classifier', ____),
])
# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)