Combien de clusters pour les grains ?

Dans la vidéo, vous avez appris à choisir un nombre approprié de clusters pour un ensemble de données à l'aide du graphique d'inertie k-means. Vous disposez d'un tableau samples contenant les mesures (telles que la surface, le périmètre, la longueur et plusieurs autres) d'échantillons de céréales. Quel est le nombre approprié de clusters dans ce cas ?

KMeans et PyPlot (plt) ont déjà été importés pour vous.

Cet ensemble de données provient du référentiel d'apprentissage automatique de l'UCI.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

Instructions de l’exercice

Pour chacune des valeurs données de k, veuillez suivre les étapes suivantes :
Créez une instance KMeans appelée model avec k clusters.
Ajustez le modèle aux données granulaires samples.
Ajoutez la valeur de l'attribut inertia_ de model à la liste inertias.
Le code permettant de tracer ks par rapport à inertias a été écrit pour vous, veuillez donc cliquer sur « Soumettre » pour voir le graphique.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

ks = range(1, 6)
inertias = []

for k in ks:
    # Create a KMeans instance with k clusters: model
    ____
    
    # Fit model to samples
    ____
    
    # Append the inertia to the list of inertias
    ____
    
# Plot ks vs inertias
plt.plot(ks, inertias, '-o')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de clusters ?Exercise 3: Regroupement de points 2D Exercise 4: Inspecter votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de clusters pour les grains ?

Exercice actuel

Exercise 7: Évaluer le clustering des grains Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement des actions à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données relatives aux grains Exercise 4: Hiérarchies d’actions Exercise 5: Étiquettes de clusters dans le regroupement hiérarchique Exercise 6: Quels sont les groupes les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les céréales Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorréler les mesures des grains avec la PCA Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec PCA Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement Wikipédia, partie I Exercise 13: Regroupement Wikipédia, partie II

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions