NMF apprend les sujets des documents
Dans la vidéo, vous avez appris que lorsque le NMF est appliqué à des documents, les composants correspondent aux thèmes des documents, et les caractéristiques NMF reconstruisent les documents à partir des thèmes. Veuillez vérifier cela par vous-même pour le modèle NMF que vous avez construit précédemment à l'aide des articles Wikipédia. Auparavant, vous avez constaté que la troisième valeur caractéristique NMF était élevée pour les articles sur les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le thème du composant NMF correspondant.
Le modèle NMF que vous avez créé précédemment est disponible sous le nom « model », tandis que « words » est une liste des mots qui étiquettent les colonnes du tableau de fréquence des mots.
Une fois que vous avez terminé, prenez un moment pour reconnaître le thème commun aux articles sur Anne Hathaway et Denzel Washington.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importez
pandassous le nompd. - Créez un DataFrame
components_dfà partir demodel.components_, en définissantcolumns=wordsafin que les colonnes soient nommées en fonction des mots. - Imprimez
components_df.shapepour vérifier les dimensions du DataFrame. - Utilisez l'accesseur
.iloc[]sur le DataFramecomponents_dfpour sélectionner la ligne3. Attribuez le résultat àcomponent. - Appelez la méthode
.nlargest()decomponentet imprimez le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour ce composant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())