CommencerCommencer gratuitement

Trouver les mots les plus fréquents

Il est toujours recommandé, une fois vos variables de sortie créées, de les inspecter pour vérifier qu’elles correspondent bien à vos attentes. Cela vous permettra de détecter tôt d’éventuelles erreurs et, le cas échéant, d’orienter les étapes suivantes de votre feature engineering.

Le vectorizer (cv) que vous avez ajusté dans l’exercice précédent et le tableau creux contenant les décomptes de mots (cv_trigram) sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Créez un DataFrame à partir des variables de sortie (décomptes de mots).
  • Calculez le nombre d’occurrences par mot et affichez les 5 mots les plus fréquents.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())
Modifier et exécuter le code