Clustering dei titoli azionari con KMeans

In questo esercizio eseguirai il clustering delle aziende usando i movimenti giornalieri dei prezzi delle azioni (cioè la differenza in dollari tra i prezzi di chiusura e di apertura di ogni giornata di scambio). Ti viene fornito un array NumPy movements con i movimenti giornalieri dei prezzi dal 2010 al 2015 (ottenuti da Yahoo! Finance), in cui ogni riga corrisponde a un'azienda ed ogni colonna a una giornata di contrattazione.

Alcune azioni sono più costose di altre. Per tenerne conto, includi un Normalizer all'inizio della tua pipeline. Il Normalizer trasformerà separatamente il prezzo di ciascuna azienda su una scala relativa prima che inizi il clustering.

Nota che Normalizer() è diverso da StandardScaler(), che hai usato nell'esercizio precedente. Mentre StandardScaler() standardizza le feature (come le feature dei dati sui pesci dell'esercizio precedente) rimuovendo la media e scalando alla varianza unitaria, Normalizer() riscalibra ogni campione - qui, il prezzo delle azioni di ciascuna azienda - in modo indipendente dagli altri.

KMeans e make_pipeline sono già stati importati per te.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza corso

Istruzioni dell'esercizio

Importa Normalizer da sklearn.preprocessing.
Crea un'istanza di Normalizer chiamata normalizer.
Crea un'istanza di KMeans chiamata kmeans con 10 cluster.
Usando make_pipeline(), crea una pipeline chiamata pipeline che concateni normalizer e kmeans.
Adatta (fit) la pipeline all'array movements.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import Normalizer
____

# Create a normalizer: normalizer
normalizer = ____

# Create a KMeans model with 10 clusters: kmeans
kmeans = ____

# Make a pipeline chaining normalizer and kmeans: pipeline
pipeline = ____

# Fit pipeline to the daily price movements
____

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Impara a individuare i gruppi sottostanti (o "cluster") in un insieme di dati. Alla fine di questo capitolo, farai il clustering delle aziende usando i loro prezzi di borsa e distinguerai specie diverse raggruppando le loro misurazioni.

Exercise 1: Unsupervised Learning Exercise 2: Quanti cluster?Exercise 3: Clustering di punti 2D Exercise 4: Esamina il tuo clustering Exercise 5: Valutare un clustering Exercise 6: Quanti cluster di cereali?Exercise 7: Valutare il clustering dei cereali Exercise 8: Trasformare le caratteristiche per cluster più efficaci Exercise 9: Scalare i dati sui pesci per il clustering Exercise 10: Clustering dei dati sui pesci Exercise 11: Clustering dei titoli azionari con KMeans

Esercizio attuale

Exercise 12: Quali titoli si muovono insieme?

In questo capitolo conoscerai due tecniche di apprendimento non supervisionato per la visualizzazione dei dati: clustering gerarchico e t-SNE. Il clustering gerarchico unisce i campioni in cluster via via più ampi, producendo una visualizzazione ad albero della gerarchia risultante. t-SNE mappa i campioni in uno spazio 2D in modo che si possa visualizzare la loro prossimità reciproca.

Exercise 1: Visualizzare le gerarchie Exercise 2: Quante fusioni?Exercise 3: Clustering gerarchico dei dati sui cereali Exercise 4: Gerarchie di titoli azionari Exercise 5: Etichette di cluster nel clustering gerarchico Exercise 6: Quali cluster sono più vicini?Exercise 7: Linkage diverso, clustering gerarchico diverso!Exercise 8: Raggruppamenti intermedi Exercise 9: Estrarre le etichette dei cluster Exercise 10: t-SNE per mappe bidimensionali Exercise 11: Visualizzazione t-SNE dell'insieme di dati sui cereali Exercise 12: Una mappa t-SNE del mercato azionario

La riduzione della dimensione riassume un insieme di dati sfruttando i pattern che si ripetono. In questo capitolo scoprirai la più fondamentale tra le tecniche di riduzione della dimensione, la "Principal Component Analysis" ("PCA"). La PCA è spesso usata prima dell’apprendimento supervisionato per migliorare prestazioni e generalizzazione del modello. Può essere utile anche nell’apprendimento non supervisionato. Per esempio, userai una variante della PCA che ti permetterà di raggruppare articoli di Wikipedia in base al loro contenuto!

Exercise 1: Visualizzare la trasformazione PCA Exercise 2: Dati correlati in natura Exercise 3: Decorrelare le misurazioni dei cereali con la PCA Exercise 4: Componenti principali Exercise 5: Dimensione intrinseca Exercise 6: La prima componente principale Exercise 7: Varianza delle feature della PCA Exercise 8: Dimensione intrinseca dei dati sui pesci Exercise 9: Riduzione della dimensione con PCA Exercise 10: Riduzione della dimensionalità delle misurazioni dei pesci Exercise 11: Un array di frequenze delle parole con tf-idf Exercise 12: Clustering di Wikipedia parte I Exercise 13: Clustering di Wikipedia, parte II

In questo capitolo imparerai una tecnica di riduzione della dimensione chiamata "Non-negative matrix factorization" ("NMF"), che esprime i campioni come combinazioni di parti interpretabili. Per esempio, rappresenta i documenti come combinazioni di argomenti e le immagini in termini di pattern visivi ricorrenti. Imparerai anche a usare la NMF per costruire sistemi di raccomandazione in grado di suggerirti articoli simili da leggere o artisti musicali in linea con la tua cronologia di ascolto!

Exercise 1: Fattorizzazione di matrici non negative (NMF)Exercise 2: Dati non negativi Exercise 3: NMF applicata agli articoli di Wikipedia Exercise 4: Feature NMF degli articoli di Wikipedia Exercise 5: NMF ricostruisce i campioni Exercise 6: NMF apprende parti interpretabili Exercise 7: NMF impara gli argomenti dei documenti Exercise 8: Esplora il dataset dei numeri LED Exercise 9: NMF impara le parti delle immagini Exercise 10: PCA non apprende parti Exercise 11: Creare sistemi di raccomandazione con NMF Exercise 12: Quali articoli sono simili a 'Cristiano Ronaldo'?Exercise 13: Consiglia artisti musicali parte I Exercise 14: Consiglia artisti musicali parte II Exercise 15: Considerazioni finali