Konuşma dili metin sınıflandırıcısı oluştur

Artık bazı müşteri çağrısı ses verilerini yazıya döktüğüne göre, müşteri çağrısından gelen metnin pre_purchase mi yoksa post_purchase mı olduğunu sınıflandıracak bir model kuracağız.

pre_purchase çağrılardan 45, post_purchase çağrılardan 57 örneğimiz var.

Modelin eğitileceği veriler train_df içinde, modelin tahmin yapacağı veriler ise test_df içinde tutuluyor.

Bunların her birinin .head() çıktısını konsola yazdırmayı dene.

Metin örneklerimizi sayılara çevirmek için CountVectorizer() ve TfidfTransformer() kullanan bir sklearn pipeline kuracağız ve ardından her örneğin hangi kategoriye ait olduğunu öğrenmek için MultinomialNB() sınıflandırıcısını kullanacağız.

Bu model, buradaki küçük örneğimizde iyi çalışacaktır; ancak daha büyük miktarda metin için daha gelişmiş yöntemler düşünebilirsin.

Bu egzersiz, kursun bir parçasıdır

Python ile Konuşma Dili İşleme

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
    ('vectorizer', ____),
    ('tfidf', ____),
    ('classifier', ____),
])

# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)

Kodu Düzenle ve Çalıştır