Trouver les mots les plus fréquents
Il est toujours recommandé, une fois vos variables de sortie créées, de les inspecter pour vérifier qu’elles correspondent bien à vos attentes. Cela vous permettra de détecter tôt d’éventuelles erreurs et, le cas échéant, d’orienter les étapes suivantes de votre feature engineering.
Le vectorizer (cv) que vous avez ajusté dans l’exercice précédent et le tableau creux contenant les décomptes de mots (cv_trigram) sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Créez un DataFrame à partir des variables de sortie (décomptes de mots).
- Calculez le nombre d’occurrences par mot et affichez les 5 mots les plus fréquents.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())