Erstelle einen Textklassifikator für gesprochene Sprache

Jetzt, wo du einige Audiodaten aus Kundengesprächen transkribiert hast, bauen wir ein Modell, das klassifiziert, ob der Text aus dem Kundengespräch pre_purchase oder post_purchase ist.

Wir haben 45 Beispiele für pre_purchase-Anrufe und 57 Beispiele für post_purchase-Anrufe.

Die Daten, auf denen das Modell trainiert, sind in train_df gespeichert, und die Daten, auf denen das Modell vorhersagt, sind in test_df gespeichert.

Gib zur Übersicht jeweils die .head() dieser DataFrames in der Konsole aus.

Wir bauen eine sklearn pipeline mit CountVectorizer() und TfidfTransformer(), um unsere Textbeispiele in Zahlen zu konvertieren, und verwenden anschließend einen MultinomialNB()-Klassifikator, um zu lernen, zu welcher Kategorie jedes Beispiel gehört.

Dieses Modell funktioniert für unser kleines Beispiel hier gut, aber bei größeren Textmengen solltest du etwas Ausgereifteres in Betracht ziehen.

Diese Übung ist Teil des Kurses

<Kurs>Verarbeitung gesprochener Sprache in Python</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
    ('vectorizer', ____),
    ('tfidf', ____),
    ('classifier', ____),
])

# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)

Code bearbeiten und ausführen