Le NMF apprend les sujets des documents.
Dans la vidéo, vous avez appris que lorsque la NMF est appliquée à des documents, les composants correspondent aux thèmes des documents et les caractéristiques NMF reconstruisent les documents à partir des thèmes. Veuillez vérifier cela par vous-même pour le modèle NMF que vous avez construit précédemment à l'aide des articles Wikipédia. Précédemment, vous avez constaté que la valeur de la troisième caractéristique NMF était élevée pour les articles concernant les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le sujet du composant NMF correspondant.
Le modèle NMF que vous avez créé précédemment est disponible à l'adresse model
, tandis que words
contient la liste des mots qui étiquettent les colonnes du tableau de fréquence des mots.
Une fois que vous avez terminé, prenez un moment pour identifier le sujet commun aux articles sur Anne Hathaway et Denzel Washington.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
pandas
en tant quepd
. - Créez un DataFrame
components_df
à partir demodel.components_
, en définissant l'columns=words
e de sorte que les colonnes soient nommées par les mots. - Veuillez imprimer «
components_df.shape
» pour vérifier les dimensions du DataFrame. - Utilisez l'accesseur d'
.iloc[]
s sur le DataFramecomponents_df
pour sélectionner l'3
de la ligne. Affectez le résultat àcomponent
. - Veuillez appeler la méthode «
.nlargest()
» de «component
» et imprimer le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour cette composante.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())