ComenzarEmpieza gratis

Tu primer BOW

Un bag-of-words es una forma de transformar texto a formato numérico.

En este ejercicio, aplicarás un BOW a la lista annak antes de pasar a un conjunto de datos más grande en el siguiente ejercicio.

Tu tarea será trabajar con esta lista y aplicar un BOW usando CountVectorizer(). Esta transformación es tu primer paso para poder entender el sentimiento de un texto. Presta atención a las palabras que puedan transmitir un sentimiento marcado.

Recuerda que la salida de CountVectorizer() es una matriz dispersa, que solo almacena las entradas distintas de cero. Para ver el contenido real de esta matriz, la convertimos en un array denso usando el método .toarray().

Ten en cuenta que, en este caso, no necesitas especificar el argumento max_features porque el texto es corto.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Importa la función de vectorización de conteo desde sklearn.feature_extraction.text.
  • Construye y ajusta el vectorizador sobre el conjunto de datos pequeño.
  • Crea la representación BOW con el nombre anna_bow llamando al método transform().
  • Imprime el resultado del BOW como un array denso.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())
Editar y ejecutar código