Maak een tekstclassifier voor gesproken taal

Nu je enkele audiofragmenten van klantgesprekken hebt getranscribeerd, gaan we een model bouwen dat classificeert of de tekst uit het klantgesprek pre_purchase of post_purchase is.

We hebben 45 voorbeelden van pre_purchase-gesprekken en 57 voorbeelden van post_purchase-gesprekken.

De gegevens waarop het model traint staan in train_df en de gegevens waarop het model voorspelt staan in test_df.

Probeer de .head() van elk hiervan naar de console te printen.

We bouwen een sklearn pipeline met CountVectorizer() en TfidfTransformer() om onze tekstvoorbeelden naar getallen om te zetten en gebruiken daarna een MultinomialNB()-classifier om te leren tot welke categorie elk voorbeeld hoort.

Dit model werkt goed voor ons kleine voorbeeld hier, maar voor grotere hoeveelheden tekst kun je iets geavanceerders overwegen.

Deze oefening maakt deel uit van de cursus

Spoken Language Processing in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
    ('vectorizer', ____),
    ('tfidf', ____),
    ('classifier', ____),
])

# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)

Code bewerken en uitvoeren