Faire correspondre les indices de features aux noms de features
Dans la vidéo de la leçon, nous avons vu que CountVectorizer n’indexe pas nécessairement le vocabulaire par ordre alphabétique. Dans cet exercice, vous allez apprendre à associer chaque indice de feature à son nom de feature correspondant dans le vocabulaire.
Nous allons utiliser les mêmes trois phrases sur les lions que dans la vidéo. Les phrases sont disponibles dans une liste appelée corpus et ont déjà été affichées dans la console.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Instanciez un objet
CountVectorizer. Nommez-levectorizer. - À l’aide de
fit_transform(), générezbow_matrixpourcorpus. - À l’aide de la méthode
get_feature_names(), associez les noms de colonnes au mot correspondant dans le vocabulaire.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create CountVectorizer object
vectorizer = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())
# Map the column names to vocabulary
bow_df.columns = vectorizer.____
# Print bow_df
print(bow_df)