TF-IDF delle trame dei film

Usiamo le trame di film selezionati casualmente per effettuare il clustering dei documenti. Prima di eseguire il clustering sui documenti, occorre ripulirli da rumore indesiderato (come caratteri speciali e stop word) e convertirli in una matrice sparsa tramite il TF-IDF dei documenti.

Usa la classe TfidfVectorizer per calcolare il TF-IDF delle trame dei film salvate nella lista plots. La funzione remove_noise() è disponibile da usare come tokenizer nella classe TfidfVectorizer. Il metodo .fit_transform() adatta i dati agli oggetti TfidfVectorizer e poi genera la matrice sparsa TF-IDF.

Nota: l'esecuzione del metodo .fit_transform() richiede alcuni secondi.

Questo esercizio fa parte del corso

Analisi di cluster in Python

Visualizza corso

Istruzioni dell'esercizio

Importa la classe TfidfVectorizer da sklearn.
Inizializza la classe TfidfVectorizer con frequenze minima e massima pari a 0.1 e 0.75, e 50 feature massime.
Usa il metodo fit_transform() sull'istanza di TfidfVectorizer inizializzata con la lista plots.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Analisi di cluster in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Prima di essere pronto a classificare articoli di notizie, è utile un'introduzione alle basi del clustering. Questo capitolo ti mette in confidenza con una classe di algoritmi di Machine Learning chiamata apprendimento non supervisionato e poi ti presenta il clustering, uno degli approcci più diffusi. Conoscerai due tecniche popolari di clustering: il clustering gerarchico e il clustering k-means. Il capitolo si chiude con i passaggi di pre-processing fondamentali prima di iniziare a eseguire il clustering sui dati.

Exercise 1: Machine Learning non supervisionato: nozioni di base Exercise 2: Unsupervised learning nel mondo reale Exercise 3: Avvistamenti di Pokémon Exercise 4: Basi dell'analisi dei cluster Exercise 5: Avvistamenti di Pokémon: clustering gerarchico Exercise 6: Avvistamenti di Pokémon: clustering k-means Exercise 7: Preparazione dei dati per l’analisi di clustering Exercise 8: Normalizza semplici dati in lista Exercise 9: Visualizza i dati normalizzati Exercise 10: Normalizzazione di numeri piccoli Exercise 11: FIFA 18: Normalizzare i dati

Questo capitolo è incentrato su un algoritmo di clustering molto diffuso, il clustering gerarchico, e sulla sua implementazione in SciPy. Oltre alla procedura per eseguirlo, prova ad aiutarti a rispondere a una domanda importante: quanti cluster sono presenti nei tuoi dati? Il capitolo si conclude con un confronto sui limiti del clustering gerarchico e con alcune considerazioni pratiche per il suo utilizzo.

Exercise 1: Basi del clustering gerarchico Exercise 2: Clustering gerarchico: metodo ward Exercise 3: Clustering gerarchico: metodo single Exercise 4: Clustering gerarchico: metodo complete Exercise 5: Visualizza i cluster Exercise 6: Visualizzare i cluster con matplotlib Exercise 7: Visualizza i cluster con seaborn Exercise 8: Quanti cluster?Exercise 9: Crea un dendrogramma Exercise 10: Quanti cluster nei dati del comic con?Exercise 11: Limiti del clustering gerarchico Exercise 12: Misurare i tempi del clustering gerarchico Exercise 13: FIFA 18: esplorare i difensori

Questo capitolo introduce un algoritmo di clustering diverso, il clustering k-means, e la sua implementazione in SciPy. Il clustering k-means supera il principale svantaggio del clustering gerarchico discusso nel capitolo precedente. Poiché i dendrogrammi sono specifici del clustering gerarchico, qui viene illustrato un metodo per individuare il numero di cluster prima di eseguire k-means. Il capitolo si conclude con una discussione sui limiti del clustering k-means e con considerazioni pratiche per l'uso di questo algoritmo.

Exercise 1: Basi del clustering k-means Exercise 2: K-means clustering: primo esercizio Exercise 3: Tempo di esecuzione del clustering k-means Exercise 4: Quanti cluster?Exercise 5: Metodo del gomito su cluster distinti Exercise 6: Metodo del gomito su dati uniformi Exercise 7: Limiti del clustering k-means Exercise 8: Impatto dei semi sui cluster distinti Exercise 9: Schemi di clustering uniformi Exercise 10: FIFA 18: difensori, ritorno

Ora che conosci due tra le tecniche di clustering più usate, questo capitolo ti aiuta ad applicare le conoscenze a problemi reali. Si parte dal processo per trovare i colori dominanti in un'immagine, per poi passare al problema introdotto all'inizio: il clustering degli articoli di notizie. Il capitolo si chiude con una discussione sul clustering con variabili multiple, che rende più difficile visualizzare l'intero insieme di dati.

Exercise 1: Colori dominanti nelle immagini Exercise 2: Estrai i valori RGB dall'immagine Exercise 3: Quanti colori dominanti?Exercise 4: Visualizza i colori dominanti Exercise 5: Clustering di documenti Exercise 6: TF-IDF delle trame dei film

Esercizio attuale

Exercise 7: Termini principali nei cluster di film Exercise 8: Clustering con più caratteristiche Exercise 9: Clustering con molte feature Exercise 10: Verifiche di base sui cluster Exercise 11: FIFA 18: cosa rende un giocatore completo?Exercise 12: Arrivederci!