Contando palabras (I)

Una vez que has registrado la información de alto nivel, puedes empezar a crear variables a partir del contenido real de cada texto. Una forma de hacerlo es similar a cómo trabajaste con variables categóricas en las lecciones anteriores.

Para cada palabra única del conjunto de datos se crea una columna.
Para cada registro, se cuenta cuántas veces aparece esa palabra y ese número se coloca en la columna correspondiente.

Estas columnas de "conteo" pueden usarse después para entrenar modelos de Machine Learning.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Importa CountVectorizer de sklearn.feature_extraction.text.
Instancia CountVectorizer y asígnalo a cv.
Ajusta el vectorizador a la columna text_clean.
Imprime los nombres de las características generados por el vectorizador.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)

Editar y ejecutar código