Termes principaux dans les clusters de films

Maintenant que vous avez créé une matrice creuse, générez les centroïdes des clusters et affichez les trois termes principaux de chaque cluster. Utilisez la méthode .todense() pour convertir la matrice creuse tfidf_matrix en matrice classique afin que la fonction kmeans() puisse la traiter. Ensuite, utilisez la méthode .get_feature_names() pour obtenir la liste des termes de l’objet tfidf_vectorizer. La fonction zip() en Python associe deux listes.

L’objet tfidf_vectorizer et la matrice creuse tfidf_matrix de l’exercice précédent ont été conservés ici. kmeans a été importé depuis SciPy.

Avec un nombre plus élevé de points de données, les clusters obtenus seraient plus nets. Cependant, cela demande davantage de puissance de calcul, ce qui est difficile à réaliser dans le cadre de cet exercice.

Cet exercice fait partie du cours

Analyse de clusters en Python

Afficher le cours

Instructions

Générez les centroïdes des clusters avec la fonction kmeans().
Générez la liste des termes à partir de l’objet tfidf_vectorizer.
Affichez les 3 principaux termes de chaque cluster.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

num_clusters = 2

# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____

# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()

for i in range(num_clusters):
    # Sort the terms and print top 3 terms
    center_terms = dict(zip(____, ____))
    sorted_terms = sorted(____, key=center_terms.get, reverse=True)
    print(____)

Modifier et exécuter le code

Cet exercice fait partie du cours

Analyse de clusters en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Avant de pouvoir classer des articles d’actualité, il est essentiel de découvrir les bases du clustering. Ce chapitre vous familiarise avec une classe d’algorithmes de Machine Learning appelée apprentissage non supervisé, puis vous présente le clustering, l’un de ses algorithmes phares. Vous verrez deux techniques de clustering populaires : le clustering hiérarchique et le clustering k-means. Le chapitre se termine par les étapes de prétraitement essentielles avant de commencer à regrouper des données.

Exercise 1: Machine Learning non supervisé : notions de base Exercise 2: Unsupervised learning dans le monde réel Exercise 3: Observations de Pokémon Exercise 4: Bases de l’analyse de clusters Exercise 5: Observations de Pokémon : clustering hiérarchique Exercise 6: Observations de Pokémon : clustering k-means Exercise 7: Préparation des données pour l’analyse de clusters Exercise 8: Normaliser des données de base sous forme de liste Exercise 9: Visualiser des données normalisées Exercise 10: Normalisation de petits nombres Exercise 11: FIFA 18 : Normaliser les données

Ce chapitre s’intéresse à un algorithme de clustering très répandu — le clustering hiérarchique — et à son implémentation dans SciPy. Au-delà de la procédure pour réaliser un clustering hiérarchique, il vous aide à répondre à une question clé : combien de clusters votre jeu de données contient-il ? Le chapitre se conclut par une présentation des limites du clustering hiérarchique et des points d’attention lors de son utilisation.

Exercise 1: Notions de base du clustering hiérarchique Exercise 2: Clustering hiérarchique : méthode de Ward Exercise 3: Clustering hiérarchique : méthode single Exercise 4: Clustering hiérarchique : méthode complete Exercise 5: Visualiser les clusters Exercise 6: Visualiser des clusters avec matplotlib Exercise 7: Visualiser des clusters avec seaborn Exercise 8: Combien de clusters ?Exercise 9: Créer un dendrogramme Exercise 10: Combien de clusters dans les données du Comic Con ?Exercise 11: Limites du clustering hiérarchique Exercise 12: Chronométrer l’exécution du clustering hiérarchique Exercise 13: FIFA 18 : explorer les défenseurs

Ce chapitre présente un autre algorithme de clustering — le clustering k-means — et son implémentation dans SciPy. Le k-means corrige le principal inconvénient du clustering hiérarchique évoqué au chapitre précédent. Les dendrogrammes étant propres au clustering hiérarchique, ce chapitre aborde une méthode pour déterminer le nombre de clusters avant d’exécuter k-means. Il se termine par une discussion sur les limites de k-means et les précautions à prendre lors de son usage.

Exercise 1: Notions de base du clustering k-means Exercise 2: Clustering k-means : premier exercice Exercise 3: Temps d’exécution du k-means Exercise 4: Combien de clusters ?Exercise 5: Méthode du coude sur des clusters distincts Exercise 6: Méthode du coude sur des données uniformes Exercise 7: Limites du clustering k-means Exercise 8: Impact des graines aléatoires sur des clusters distincts Exercise 9: Motifs de regroupement uniformes Exercise 10: FIFA 18 : retour sur les défenseurs

Maintenant que vous maîtrisez deux des techniques de clustering les plus utilisées, ce chapitre vous aide à appliquer ces connaissances à des problèmes concrets. Il commence par le processus d’extraction des couleurs dominantes d’une image, puis revient au problème présenté en introduction : le regroupement d’articles d’actualité. Le chapitre se conclut par une discussion sur le clustering avec de multiples variables, qui rend la visualisation de l’ensemble des données plus difficile.

Exercise 1: Couleurs dominantes dans les images Exercise 2: Extraire les valeurs RVB d’une image Exercise 3: Combien de couleurs dominantes ?Exercise 4: Afficher les couleurs dominantes Exercise 5: Regroupement de documents Exercise 6: TF-IDF des intrigues de films Exercise 7: Termes principaux dans les clusters de films

Exercice en cours

Exercise 8: Regrouper avec plusieurs variables Exercise 9: Regroupement avec de nombreuses caractéristiques Exercise 10: Vérifications de base sur les clusters Exercise 11: FIFA 18 : qu’est-ce qui fait un joueur complet ?Exercise 12: Au revoir !