Clustering dei dati sui pesci

Ora userai la tua pipeline di standardizzazione e clustering dell'esercizio precedente per raggruppare i pesci in base alle loro misurazioni e poi creare una tabella a doppia entrata per confrontare le etichette dei cluster con le specie dei pesci.

Come prima, samples è l'array 2D delle misurazioni dei pesci. La tua pipeline è disponibile come pipeline e la specie di ogni campione di pesce è fornita dalla lista species.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza corso

Istruzioni dell'esercizio

Importa pandas come pd.
Adatta la pipeline alle misurazioni dei pesci samples.
Ottieni le etichette di cluster per samples usando il metodo .predict() di pipeline.
Usando pd.DataFrame(), crea un DataFrame df con due colonne chiamate 'labels' e 'species', utilizzando rispettivamente labels e species come valori delle colonne.
Usando pd.crosstab(), crea una tabella a doppia entrata ct di df['labels'] e df['species'].

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import pandas
import pandas as pd

# Fit the pipeline to samples
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame with labels and species as columns: df
df = ____

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Impara a individuare i gruppi sottostanti (o "cluster") in un insieme di dati. Alla fine di questo capitolo, farai il clustering delle aziende usando i loro prezzi di borsa e distinguerai specie diverse raggruppando le loro misurazioni.

Exercise 1: Unsupervised Learning Exercise 2: Quanti cluster?Exercise 3: Clustering di punti 2D Exercise 4: Esamina il tuo clustering Exercise 5: Valutare un clustering Exercise 6: Quanti cluster di cereali?Exercise 7: Valutare il clustering dei cereali Exercise 8: Trasformare le caratteristiche per cluster più efficaci Exercise 9: Scalare i dati sui pesci per il clustering Exercise 10: Clustering dei dati sui pesci

Esercizio attuale

Exercise 11: Clustering dei titoli azionari con KMeans Exercise 12: Quali titoli si muovono insieme?

In questo capitolo conoscerai due tecniche di apprendimento non supervisionato per la visualizzazione dei dati: clustering gerarchico e t-SNE. Il clustering gerarchico unisce i campioni in cluster via via più ampi, producendo una visualizzazione ad albero della gerarchia risultante. t-SNE mappa i campioni in uno spazio 2D in modo che si possa visualizzare la loro prossimità reciproca.

Exercise 1: Visualizzare le gerarchie Exercise 2: Quante fusioni?Exercise 3: Clustering gerarchico dei dati sui cereali Exercise 4: Gerarchie di titoli azionari Exercise 5: Etichette di cluster nel clustering gerarchico Exercise 6: Quali cluster sono più vicini?Exercise 7: Linkage diverso, clustering gerarchico diverso!Exercise 8: Raggruppamenti intermedi Exercise 9: Estrarre le etichette dei cluster Exercise 10: t-SNE per mappe bidimensionali Exercise 11: Visualizzazione t-SNE dell'insieme di dati sui cereali Exercise 12: Una mappa t-SNE del mercato azionario

La riduzione della dimensione riassume un insieme di dati sfruttando i pattern che si ripetono. In questo capitolo scoprirai la più fondamentale tra le tecniche di riduzione della dimensione, la "Principal Component Analysis" ("PCA"). La PCA è spesso usata prima dell’apprendimento supervisionato per migliorare prestazioni e generalizzazione del modello. Può essere utile anche nell’apprendimento non supervisionato. Per esempio, userai una variante della PCA che ti permetterà di raggruppare articoli di Wikipedia in base al loro contenuto!

Exercise 1: Visualizzare la trasformazione PCA Exercise 2: Dati correlati in natura Exercise 3: Decorrelare le misurazioni dei cereali con la PCA Exercise 4: Componenti principali Exercise 5: Dimensione intrinseca Exercise 6: La prima componente principale Exercise 7: Varianza delle feature della PCA Exercise 8: Dimensione intrinseca dei dati sui pesci Exercise 9: Riduzione della dimensione con PCA Exercise 10: Riduzione della dimensionalità delle misurazioni dei pesci Exercise 11: Un array di frequenze delle parole con tf-idf Exercise 12: Clustering di Wikipedia parte I Exercise 13: Clustering di Wikipedia, parte II

In questo capitolo imparerai una tecnica di riduzione della dimensione chiamata "Non-negative matrix factorization" ("NMF"), che esprime i campioni come combinazioni di parti interpretabili. Per esempio, rappresenta i documenti come combinazioni di argomenti e le immagini in termini di pattern visivi ricorrenti. Imparerai anche a usare la NMF per costruire sistemi di raccomandazione in grado di suggerirti articoli simili da leggere o artisti musicali in linea con la tua cronologia di ascolto!

Exercise 1: Fattorizzazione di matrici non negative (NMF)Exercise 2: Dati non negativi Exercise 3: NMF applicata agli articoli di Wikipedia Exercise 4: Feature NMF degli articoli di Wikipedia Exercise 5: NMF ricostruisce i campioni Exercise 6: NMF apprende parti interpretabili Exercise 7: NMF impara gli argomenti dei documenti Exercise 8: Esplora il dataset dei numeri LED Exercise 9: NMF impara le parti delle immagini Exercise 10: PCA non apprende parti Exercise 11: Creare sistemi di raccomandazione con NMF Exercise 12: Quali articoli sono simili a 'Cristiano Ronaldo'?Exercise 13: Consiglia artisti musicali parte I Exercise 14: Consiglia artisti musicali parte II Exercise 15: Considerazioni finali