Mise à l'échelle des données sur les poissons pour le regroupement

On vous fournit un tableau « samples » contenant les mesures de poissons. Chaque ligne représente un poisson individuel. Les mesures, telles que le poids en grammes, la longueur en centimètres et le rapport pourcentage entre la hauteur et la longueur, ont des échelles très différentes. Afin de regrouper efficacement ces données, il est nécessaire de normaliser ces caractéristiques au préalable. Dans cet exercice, vous allez créer un pipeline pour normaliser et regrouper les données.

Ces données de mesure des poissons proviennent du Journal of Statistics Education.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

Instructions de l’exercice

Importez :
- make_pipeline depuis sklearn.pipeline.
- StandardScaler depuis sklearn.preprocessing.
- KMeans depuis sklearn.cluster.
Créez une instance de StandardScaler nommée scaler.
Créer une instance de KMeans avec 4 clusters appelée kmeans.
Créer un pipeline appelé pipeline qui enchaîne scaler et kmeans. Pour ce faire, il suffit de les passer en tant qu'arguments à make_pipeline().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create scaler: scaler
scaler = ____

# Create KMeans instance: kmeans
kmeans = ____

# Create pipeline: pipeline
pipeline = ____

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de clusters ?Exercise 3: Regroupement de points 2D Exercise 4: Inspecter votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de clusters pour les grains ?Exercise 7: Évaluer le clustering des grains Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement

Exercice actuel

Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement des actions à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données relatives aux grains Exercise 4: Hiérarchies d’actions Exercise 5: Étiquettes de clusters dans le regroupement hiérarchique Exercise 6: Quels sont les groupes les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les céréales Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorréler les mesures des grains avec la PCA Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec PCA Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement Wikipédia, partie I Exercise 13: Regroupement Wikipédia, partie II

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions