Maak een tekstclassifier voor gesproken taal
Nu je enkele audiofragmenten van klantgesprekken hebt getranscribeerd, gaan we een model bouwen dat classificeert of de tekst uit het klantgesprek pre_purchase of post_purchase is.
We hebben 45 voorbeelden van pre_purchase-gesprekken en 57 voorbeelden van post_purchase-gesprekken.
De gegevens waarop het model traint staan in train_df en de gegevens waarop het model voorspelt staan in test_df.
Probeer de .head() van elk hiervan naar de console te printen.
We bouwen een sklearn pipeline met CountVectorizer() en TfidfTransformer() om onze tekstvoorbeelden naar getallen om te zetten en gebruiken daarna een MultinomialNB()-classifier om te leren tot welke categorie elk voorbeeld hoort.
Dit model werkt goed voor ons kleine voorbeeld hier, maar voor grotere hoeveelheden tekst kun je iets geavanceerders overwegen.
Deze oefening maakt deel uit van de cursus
Spoken Language Processing in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
('vectorizer', ____),
('tfidf', ____),
('classifier', ____),
])
# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)