Scalare i dati sui pesci per il clustering

Ti viene fornito un array samples con le misure di pesci. Ogni riga rappresenta un singolo pesce. Le misure, come il peso in grammi, la lunghezza in centimetri e la percentuale del rapporto tra altezza e lunghezza, hanno scale molto diverse. Per raggruppare efficacemente questi dati, prima dovrai standardizzare queste feature. In questo esercizio, costruirai una pipeline per standardizzare e raggruppare i dati.

Questi dati di misurazione dei pesci provengono dal Journal of Statistics Education.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza corso

Istruzioni dell'esercizio

Importa:
- make_pipeline da sklearn.pipeline.
- StandardScaler da sklearn.preprocessing.
- KMeans da sklearn.cluster.
Crea un'istanza di StandardScaler chiamata scaler.
Crea un'istanza di KMeans con 4 cluster chiamata kmeans.
Crea una pipeline chiamata pipeline che colleghi scaler e kmeans. Per farlo, ti basta passarli come argomenti a make_pipeline().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create scaler: scaler
scaler = ____

# Create KMeans instance: kmeans
kmeans = ____

# Create pipeline: pipeline
pipeline = ____

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Impara a individuare i gruppi sottostanti (o "cluster") in un insieme di dati. Alla fine di questo capitolo, farai il clustering delle aziende usando i loro prezzi di borsa e distinguerai specie diverse raggruppando le loro misurazioni.

Exercise 1: Unsupervised Learning Exercise 2: Quanti cluster?Exercise 3: Clustering di punti 2D Exercise 4: Esamina il tuo clustering Exercise 5: Valutare un clustering Exercise 6: Quanti cluster di cereali?Exercise 7: Valutare il clustering dei cereali Exercise 8: Trasformare le caratteristiche per cluster più efficaci Exercise 9: Scalare i dati sui pesci per il clustering

Esercizio attuale

Exercise 10: Clustering dei dati sui pesci Exercise 11: Clustering dei titoli azionari con KMeans Exercise 12: Quali titoli si muovono insieme?

In questo capitolo conoscerai due tecniche di apprendimento non supervisionato per la visualizzazione dei dati: clustering gerarchico e t-SNE. Il clustering gerarchico unisce i campioni in cluster via via più ampi, producendo una visualizzazione ad albero della gerarchia risultante. t-SNE mappa i campioni in uno spazio 2D in modo che si possa visualizzare la loro prossimità reciproca.

Exercise 1: Visualizzare le gerarchie Exercise 2: Quante fusioni?Exercise 3: Clustering gerarchico dei dati sui cereali Exercise 4: Gerarchie di titoli azionari Exercise 5: Etichette di cluster nel clustering gerarchico Exercise 6: Quali cluster sono più vicini?Exercise 7: Linkage diverso, clustering gerarchico diverso!Exercise 8: Raggruppamenti intermedi Exercise 9: Estrarre le etichette dei cluster Exercise 10: t-SNE per mappe bidimensionali Exercise 11: Visualizzazione t-SNE dell'insieme di dati sui cereali Exercise 12: Una mappa t-SNE del mercato azionario

La riduzione della dimensione riassume un insieme di dati sfruttando i pattern che si ripetono. In questo capitolo scoprirai la più fondamentale tra le tecniche di riduzione della dimensione, la "Principal Component Analysis" ("PCA"). La PCA è spesso usata prima dell’apprendimento supervisionato per migliorare prestazioni e generalizzazione del modello. Può essere utile anche nell’apprendimento non supervisionato. Per esempio, userai una variante della PCA che ti permetterà di raggruppare articoli di Wikipedia in base al loro contenuto!

Exercise 1: Visualizzare la trasformazione PCA Exercise 2: Dati correlati in natura Exercise 3: Decorrelare le misurazioni dei cereali con la PCA Exercise 4: Componenti principali Exercise 5: Dimensione intrinseca Exercise 6: La prima componente principale Exercise 7: Varianza delle feature della PCA Exercise 8: Dimensione intrinseca dei dati sui pesci Exercise 9: Riduzione della dimensione con PCA Exercise 10: Riduzione della dimensionalità delle misurazioni dei pesci Exercise 11: Un array di frequenze delle parole con tf-idf Exercise 12: Clustering di Wikipedia parte I Exercise 13: Clustering di Wikipedia, parte II

In questo capitolo imparerai una tecnica di riduzione della dimensione chiamata "Non-negative matrix factorization" ("NMF"), che esprime i campioni come combinazioni di parti interpretabili. Per esempio, rappresenta i documenti come combinazioni di argomenti e le immagini in termini di pattern visivi ricorrenti. Imparerai anche a usare la NMF per costruire sistemi di raccomandazione in grado di suggerirti articoli simili da leggere o artisti musicali in linea con la tua cronologia di ascolto!

Exercise 1: Fattorizzazione di matrici non negative (NMF)Exercise 2: Dati non negativi Exercise 3: NMF applicata agli articoli di Wikipedia Exercise 4: Feature NMF degli articoli di Wikipedia Exercise 5: NMF ricostruisce i campioni Exercise 6: NMF apprende parti interpretabili Exercise 7: NMF impara gli argomenti dei documenti Exercise 8: Esplora il dataset dei numeri LED Exercise 9: NMF impara le parti delle immagini Exercise 10: PCA non apprende parti Exercise 11: Creare sistemi di raccomandazione con NMF Exercise 12: Quali articoli sono simili a 'Cristiano Ronaldo'?Exercise 13: Consiglia artisti musicali parte I Exercise 14: Consiglia artisti musicali parte II Exercise 15: Considerazioni finali