Contando palabras (I)
Una vez que has registrado la información de alto nivel, puedes empezar a crear variables a partir del contenido real de cada texto. Una forma de hacerlo es similar a cómo trabajaste con variables categóricas en las lecciones anteriores.
- Para cada palabra única del conjunto de datos se crea una columna.
- Para cada registro, se cuenta cuántas veces aparece esa palabra y ese número se coloca en la columna correspondiente.
Estas columnas de "conteo" pueden usarse después para entrenar modelos de Machine Learning.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Importa
CountVectorizerdesklearn.feature_extraction.text. - Instancia
CountVectorizery asígnalo acv. - Ajusta el vectorizador a la columna
text_clean. - Imprime los nombres de las características generados por el vectorizador.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)