Vincular los índices de características con los nombres de características
En el vídeo de la lección vimos que CountVectorizer no indexa necesariamente el vocabulario en orden alfabético. En este ejercicio, aprenderás a vincular cada índice de característica con su nombre correspondiente en el vocabulario.
Usaremos las mismas tres frases sobre leones del vídeo. Las frases están disponibles en una lista llamada corpus y ya se han impreso en la consola.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Instancia un objeto
CountVectorizer. Llámalovectorizer. - Usando
fit_transform(), generabow_matrixparacorpus. - Usando el método
get_feature_names(), asigna los nombres de las columnas a la palabra correspondiente del vocabulario.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create CountVectorizer object
vectorizer = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())
# Map the column names to vocabulary
bow_df.columns = vectorizer.____
# Print bow_df
print(bow_df)