CommencerCommencer gratuitement

Compter les mots (I)

Une fois les informations générales enregistrées, vous pouvez commencer à créer des variables à partir du contenu réel de chaque texte. Une approche consiste à procéder de manière similaire à ce que vous avez fait avec les variables catégorielles dans les leçons précédentes.

  • Pour chaque mot unique du jeu de données, une colonne est créée.
  • Pour chaque entrée, on compte le nombre d’occurrences de ce mot et on inscrit cette valeur dans la colonne correspondante.

Ces colonnes de « comptage » peuvent ensuite être utilisées pour entraîner des modèles de Machine Learning.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Importez CountVectorizer depuis sklearn.feature_extraction.text.
  • Instanciez CountVectorizer et assignez-le à cv.
  • Ajustez le vectoriseur sur la colonne text_clean.
  • Affichez les noms de variables générés par le vectoriseur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Modifier et exécuter le code