Crea un clasificador de texto de lenguaje hablado

Ahora que has transcrito algunos fragmentos de audio de llamadas de clientes, vamos a crear un modelo para clasificar si el texto de la llamada es pre_purchase o post_purchase.

Tenemos 45 ejemplos de llamadas pre_purchase y 57 ejemplos de llamadas post_purchase.

Los datos para entrenar el modelo están en train_df y los datos sobre los que el modelo hará predicciones están en test_df.

Prueba a imprimir el .head() de cada uno en la consola.

Construiremos un sklearn pipeline usando CountVectorizer() y TfidfTransformer() para convertir nuestras muestras de texto en números y luego usaremos un clasificador MultinomialNB() para aprender a qué categoría pertenece cada muestra.

Este modelo funcionará bien en nuestro ejemplo pequeño, pero para volúmenes de texto mayores quizá te interese algo más sofisticado.

Este ejercicio forma parte del curso

Procesamiento del lenguaje hablado en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Build the text_classifier as an sklearn pipeline
text_classifier = Pipeline([
    ('vectorizer', ____),
    ('tfidf', ____),
    ('classifier', ____),
])

# Fit the classifier pipeline on the training data
text_classifier.fit(____, ____)

Editar y ejecutar código