1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Zpracování mluveného jazyka v Pythonu

Connected

cvičení

Vytvoření klasifikátoru mluveného textu

Teď, když máš přepsaná zvuková data zákaznických hovorů, sestavíme model, který bude klasifikovat, zda text z hovoru patří do kategorie pre_purchase, nebo post_purchase.

Máme k dispozici 45 příkladů hovorů pre_purchase a 57 příkladů hovorů post_purchase.

Data, na kterých model trénuje, jsou uložena v train_df, a data, na kterých bude predikovat, jsou uložena v test_df.

Zkus si vypsat .head() každého z nich do konzole.

Sestavíme sklearn pipeline pomocí CountVectorizer() a TfidfTransformer(), abychom převedli textové vzorky na čísla, a pak použijeme klasifikátor MultinomialNB(), který se naučí, do jaké kategorie každý vzorek patří.

Tento model bude na našem malém příkladu fungovat dobře, ale pro větší množství textu možná budeš chtít zvážit sofistikovanější přístup.

Pokyny 1/2

undefined XP
    1
    2
  • Vytvoř text_classifier pomocí CountVectorizer(), TfidfTransformer() a MultinomialNB().
  • Natrénuj text_classifier na train_df.text a train_df.label.