NMF apprend les sujets des documents

Dans la vidéo, vous avez appris que lorsque le NMF est appliqué à des documents, les composants correspondent aux thèmes des documents, et les caractéristiques NMF reconstruisent les documents à partir des thèmes. Veuillez vérifier cela par vous-même pour le modèle NMF que vous avez construit précédemment à l'aide des articles Wikipédia. Auparavant, vous avez constaté que la troisième valeur caractéristique NMF était élevée pour les articles sur les acteurs Anne Hathaway et Denzel Washington. Dans cet exercice, identifiez le thème du composant NMF correspondant.

Le modèle NMF que vous avez créé précédemment est disponible sous le nom « model », tandis que « words » est une liste des mots qui étiquettent les colonnes du tableau de fréquence des mots.

Une fois que vous avez terminé, prenez un moment pour reconnaître le thème commun aux articles sur Anne Hathaway et Denzel Washington.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

Instructions de l’exercice

Importez pandas sous le nom pd.
Créez un DataFrame components_df à partir de model.components_, en définissant columns=words afin que les colonnes soient nommées en fonction des mots.
Imprimez components_df.shape pour vérifier les dimensions du DataFrame.
Utilisez l'accesseur .iloc[] sur le DataFrame components_df pour sélectionner la ligne 3. Attribuez le résultat à component.
Appelez la méthode .nlargest() de component et imprimez le résultat. Cela donne les cinq mots ayant les valeurs les plus élevées pour ce composant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Learn how to discover the underlying groups (or "clusters") in a dataset. By the end of this chapter, you'll be clustering companies using their stock market prices, and distinguishing different species by clustering their measurements.

Exercise 1: Unsupervised Learning Exercise 2: How many clusters?Exercise 3: Clustering 2D points Exercise 4: Inspect your clustering Exercise 5: Evaluating a clustering Exercise 6: How many clusters of grain?Exercise 7: Evaluating the grain clustering Exercise 8: Transforming features for better clusterings Exercise 9: Scaling fish data for clustering Exercise 10: Clustering the fish data Exercise 11: Clustering stocks using KMeans Exercise 12: Which stocks move together?

In this chapter, you'll learn about two unsupervised learning techniques for data visualization, hierarchical clustering and t-SNE. Hierarchical clustering merges the data samples into ever-coarser clusters, yielding a tree visualization of the resulting cluster hierarchy. t-SNE maps the data samples into 2d space so that the proximity of the samples to one another can be visualized.

Exercise 1: Visualizing hierarchies Exercise 2: How many merges?Exercise 3: Hierarchical clustering of the grain data Exercise 4: Hierarchies of stocks Exercise 5: Cluster labels in hierarchical clustering Exercise 6: Which clusters are closest?Exercise 7: Different linkage, different hierarchical clustering!Exercise 8: Intermediate clusterings Exercise 9: Extracting the cluster labels Exercise 10: t-SNE for 2-dimensional maps Exercise 11: t-SNE visualization of grain dataset Exercise 12: A t-SNE map of the stock market

Dimension reduction summarizes a dataset using its common occuring patterns. In this chapter, you'll learn about the most fundamental of dimension reduction techniques, "Principal Component Analysis" ("PCA"). PCA is often used before supervised learning to improve model performance and generalization. It can also be useful for unsupervised learning. For example, you'll employ a variant of PCA will allow you to cluster Wikipedia articles by their content!

Exercise 1: Visualizing the PCA transformation Exercise 2: Correlated data in nature Exercise 3: Decorrelating the grain measurements with PCA Exercise 4: Principal components Exercise 5: Intrinsic dimension Exercise 6: The first principal component Exercise 7: Variance of the PCA features Exercise 8: Intrinsic dimension of the fish data Exercise 9: Dimension reduction with PCA Exercise 10: Dimension reduction of the fish measurements Exercise 11: A tf-idf word-frequency array Exercise 12: Clustering Wikipedia part I Exercise 13: Clustering Wikipedia part II

In this chapter, you'll learn about a dimension reduction technique called "Non-negative matrix factorization" ("NMF") that expresses samples as combinations of interpretable parts. For example, it expresses documents as combinations of topics, and images in terms of commonly occurring visual patterns. You'll also learn to use NMF to build recommender systems that can find you similar articles to read, or musical artists that match your listening history!

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents

Exercice actuel

Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions