CommencerCommencer gratuitement

Faire correspondre les indices de features aux noms de features

Dans la vidéo de la leçon, nous avons vu que CountVectorizer n’indexe pas nécessairement le vocabulaire par ordre alphabétique. Dans cet exercice, vous allez apprendre à associer chaque indice de feature à son nom de feature correspondant dans le vocabulaire.

Nous allons utiliser les mêmes trois phrases sur les lions que dans la vidéo. Les phrases sont disponibles dans une liste appelée corpus et ont déjà été affichées dans la console.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Instanciez un objet CountVectorizer. Nommez-le vectorizer.
  • À l’aide de fit_transform(), générez bow_matrix pour corpus.
  • À l’aide de la méthode get_feature_names(), associez les noms de colonnes au mot correspondant dans le vocabulaire.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create CountVectorizer object
vectorizer = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())

# Map the column names to vocabulary 
bow_df.columns = vectorizer.____

# Print bow_df
print(bow_df)
Modifier et exécuter le code