Compter les mots (I)
Une fois les informations générales enregistrées, vous pouvez commencer à créer des variables à partir du contenu réel de chaque texte. Une approche consiste à procéder de manière similaire à ce que vous avez fait avec les variables catégorielles dans les leçons précédentes.
- Pour chaque mot unique du jeu de données, une colonne est créée.
- Pour chaque entrée, on compte le nombre d’occurrences de ce mot et on inscrit cette valeur dans la colonne correspondante.
Ces colonnes de « comptage » peuvent ensuite être utilisées pour entraîner des modèles de Machine Learning.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Importez
CountVectorizerdepuissklearn.feature_extraction.text. - Instanciez
CountVectorizeret assignez-le àcv. - Ajustez le vectoriseur sur la colonne
text_clean. - Affichez les noms de variables générés par le vectoriseur.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import CountVectorizer
____
# Instantiate CountVectorizer
cv = ____
# Fit the vectorizer
cv.____(speech_df['text_clean'])
# Print feature names
print(cv.____)