CommencerCommencer gratuitement

Le NMF apprend les sujets des documents.

Dans la vidéo, vous avez appris que lorsque la NMF est appliquée à des documents, les composants correspondent aux thèmes des documents et les caractéristiques NMF reconstruisent les documents à partir des thèmes. Veuillez vérifier cela par vous-même pour le modèle NMF que vous avez construit précédemment à l'aide des articles Wikipédia. Précédemment, vous avez constaté que la valeur de la troisième caractéristique NMF était élevée pour les articles concernant les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le sujet du composant NMF correspondant.

Le modèle NMF que vous avez créé précédemment est disponible à l'adresse model, tandis que words contient la liste des mots qui étiquettent les colonnes du tableau de fréquence des mots.

Une fois que vous avez terminé, prenez un moment pour identifier le sujet commun aux articles sur Anne Hathaway et Denzel Washington.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importez pandas en tant que pd.
  • Créez un DataFrame components_df à partir de model.components_, en définissant l'columns=words e de sorte que les colonnes soient nommées par les mots.
  • Veuillez imprimer « components_df.shape » pour vérifier les dimensions du DataFrame.
  • Utilisez l'accesseur d'.iloc[] s sur le DataFrame components_df pour sélectionner l'3 de la ligne. Affectez le résultat à component.
  • Veuillez appeler la méthode « .nlargest() » de « component » et imprimer le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour cette composante.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Modifier et exécuter le code