1. Nauka
  2. /
  3. Kursy
  4. /
  5. Przetwarzanie mowy w Pythonie

Connected

ćwiczenie

Tworzenie klasyfikatora tekstu mówionego

Masz już transkrypcje fragmentów nagrań rozmów z klientami – czas zbudować model klasyfikujący, czy tekst z danej rozmowy dotyczy okresu pre_purchase (przed zakupem) czy post_purchase (po zakupie).

Dysponujemy 45 przykładami rozmów pre_purchase i 57 przykładami rozmów post_purchase.

Dane treningowe modelu są przechowane w train_df, a dane do predykcji – w test_df.

Spróbuj wydrukować .head() każdego z tych zbiorów w konsoli.

Zbudujemy potok (sklearn pipeline) z użyciem CountVectorizer() i TfidfTransformer(), aby zamienić próbki tekstowe na liczby, a następnie użyjemy klasyfikatora MultinomialNB(), który nauczy się przypisywać każdą próbkę do odpowiedniej kategorii.

Ten model sprawdzi się dobrze na naszym małym przykładzie, ale przy większych ilościach tekstu warto rozważyć bardziej zaawansowane rozwiązania.

Instrukcje 1/2

undefined XP
    1
    2
  • Utwórz text_classifier z użyciem CountVectorizer(), TfidfTransformer() i MultinomialNB().
  • Dopasuj text_classifier na train_df.text i train_df.label.