CommencerCommencez gratuitement

Trouver les mots les plus fréquents

Il est toujours recommandé, une fois vos variables de sortie créées, de les inspecter pour vérifier qu’elles correspondent bien à vos attentes. Cela vous permettra de détecter tôt d’éventuelles erreurs et, le cas échéant, d’orienter les étapes suivantes de votre feature engineering.

Le vectorizer (cv) que vous avez ajusté dans l’exercice précédent et le tableau creux contenant les décomptes de mots (cv_trigram) sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>
Voir le cours

Instructions de l’exercice

  • Créez un DataFrame à partir des variables de sortie (décomptes de mots).
  • Calculez le nombre d’occurrences par mot et affichez les 5 mots les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())
Modifier et exécuter le code