CommencerCommencer gratuitement

NMF apprend les sujets des documents

Dans la vidéo, vous avez appris que lorsque le NMF est appliqué à des documents, les composants correspondent aux thèmes des documents, et les caractéristiques NMF reconstruisent les documents à partir des thèmes. Veuillez vérifier cela par vous-même pour le modèle NMF que vous avez construit précédemment à l'aide des articles Wikipédia. Auparavant, vous avez constaté que la troisième valeur caractéristique NMF était élevée pour les articles sur les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le thème du composant NMF correspondant.

Le modèle NMF que vous avez créé précédemment est disponible sous le nom « model », tandis que « words » est une liste des mots qui étiquettent les colonnes du tableau de fréquence des mots.

Une fois que vous avez terminé, prenez un moment pour reconnaître le thème commun aux articles sur Anne Hathaway et Denzel Washington.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez pandas sous le nom pd.
  • Créez un DataFrame components_df à partir de model.components_, en définissant columns=words afin que les colonnes soient nommées en fonction des mots.
  • Imprimez components_df.shape pour vérifier les dimensions du DataFrame.
  • Utilisez l'accesseur .iloc[] sur le DataFrame components_df pour sélectionner la ligne 3. Attribuez le résultat à component.
  • Appelez la méthode .nlargest() de component et imprimez le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour ce composant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Modifier et exécuter le code