Extraction des étiquettes de cluster

Dans l'exercice précédent, vous avez observé que le regroupement intermédiaire des échantillons de céréales à la hauteur 6 comporte 3 clusters. À présent, veuillez utiliser la fonction fcluster() pour extraire les étiquettes des clusters pour ce regroupement intermédiaire, puis comparez les étiquettes avec les variétés de céréales à l'aide d'un tableau croisé.

Le regroupement hiérarchique a déjà été effectué et mergings est le résultat de la fonction linkage(). La liste varieties indique la variété de chaque échantillon de céréales.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

Instructions de l’exercice

Importation :
- pandas comme pd.
- fcluster depuis scipy.cluster.hierarchy.
Effectuez un regroupement hiérarchique plat en utilisant la fonction fcluster() sur mergings. Spécifiez une hauteur maximale de 6 et l'argument clé criterion='distance'.
Créez un DataFrame df avec deux colonnes nommées 'labels' et 'varieties', en utilisant respectivement labels et varieties pour les valeurs des colonnes. Cette opération a été effectuée pour vous.
Créez un tableau croisé ct entre df['labels'] et df['varieties'] afin de compter le nombre de fois où chaque variété de céréales coïncide avec chaque étiquette de cluster.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Perform the necessary imports
import ____ as ____
from ____ import ____

# Use fcluster to extract labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de clusters ?Exercise 3: Regroupement de points 2D Exercise 4: Inspecter votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de clusters pour les grains ?Exercise 7: Évaluer le clustering des grains Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement des actions à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données relatives aux grains Exercise 4: Hiérarchies d’actions Exercise 5: Étiquettes de clusters dans le regroupement hiérarchique Exercise 6: Quels sont les groupes les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster

Exercice actuel

Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les céréales Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorréler les mesures des grains avec la PCA Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec PCA Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement Wikipédia, partie I Exercise 13: Regroupement Wikipédia, partie II

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions