1. Apprendre
  2. /
  3. Cours
  4. /
  5. Unsupervised Learning in Python

Connected

Exercice

NMF apprend les thèmes des documents

Dans la vidéo, vous avez vu que lorsque NMF est appliqué à des documents, les composantes correspondent aux thèmes des documents, et que les caractéristiques NMF reconstruisent les documents à partir de ces thèmes. Vérifiez-le vous-même pour le modèle NMF que vous avez construit plus tôt avec les articles de Wikipédia. Vous avez aussi remarqué que la valeur de la 3e caractéristique NMF était élevée pour les articles sur les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le thème de la composante NMF correspondante.

Le modèle NMF que vous avez construit plus tôt est disponible sous le nom model, tandis que words est une liste des mots qui servent d'étiquettes aux colonnes du tableau de fréquences de mots.

Quand vous aurez terminé, prenez un moment pour reconnaître le thème que les articles sur Anne Hathaway et Denzel Washington ont en commun !

Instructions

100 XP
  • Importez pandas sous le nom pd.
  • Créez une DataFrame components_df à partir de model.components_, en définissant columns=words afin que les colonnes soient étiquetées par les mots.
  • Affichez components_df.shape pour vérifier les dimensions de la DataFrame.
  • Utilisez l'accesseur .iloc[] sur la DataFrame components_df pour sélectionner la rangée 3. Assignez le résultat à component.
  • Appelez la méthode .nlargest() de component et affichez le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour cette composante.