TF-IDF von Filmhandlungen

Lass uns die Handlungen zufällig ausgewählter Filme für das Clustering von Dokumenten verwenden. Bevor du Dokumente clustern kannst, müssen sie von unerwünschtem Rauschen (z. B. Sonderzeichen und Stoppwörtern) bereinigt und über TF-IDF der Dokumente in eine Sparse-Matrix umgewandelt werden.

Verwende die Klasse TfidfVectorizer, um das TF-IDF der in der Liste plots gespeicherten Filmhandlungen zu berechnen. Die Funktion remove_noise() steht als tokenizer in der Klasse TfidfVectorizer zur Verfügung. Die Methode .fit_transform() passt die Daten an die TfidfVectorizer-Objekte an und erzeugt anschließend die TF-IDF-Sparse-Matrix.

Hinweis: Das Ausführen der Methode .fit_transform() dauert ein paar Sekunden.

Diese Übung ist Teil des Kurses

Cluster Analysis in Python

Anleitung zur Übung

Importiere die Klasse TfidfVectorizer aus sklearn.
Initialisiere die Klasse TfidfVectorizer mit minimalen und maximalen Frequenzen von 0.1 und 0.75 sowie 50 maximalen Features.
Verwende die Methode fit_transform() auf der initialisierten Klasse TfidfVectorizer mit der Liste plots.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Cluster Analysis in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Bevor du bereit bist, Nachrichtenartikel zu klassifizieren, brauchst du die Grundlagen des Clustering. Dieses Kapitel macht dich mit einer Klasse von Machine-Learning-Algorithmen vertraut, dem unüberwachten Lernen, und führt dich dann in Clustering ein, einen der beliebtesten Algorithmen des unüberwachten Lernens. Du lernst zwei gängige Clustering-Verfahren kennen – hierarchisches Clustering und K-Means-Clustering. Das Kapitel schließt mit grundlegenden Schritten der Vorverarbeitung, bevor du mit dem Clustern von Daten beginnst.

Exercise 1: Unüberwachtes Lernen: Grundlagen Exercise 2: Unüberwachtes Lernen in der Praxis Exercise 3: Pokémon-Sichtungen Exercise 4: Grundlagen der Clusteranalyse Exercise 5: Pokémon-Sichtungen: hierarchisches Clustering Exercise 6: Pokémon-Sichtungen: k-means-Clustering Exercise 7: Datenvorbereitung für die Clusteranalyse Exercise 8: Einfache Listendaten normalisieren Exercise 9: Normalisierte Daten visualisieren Exercise 10: Normalisierung kleiner Zahlen Exercise 11: FIFA 18: Daten normalisieren

Dieses Kapitel konzentriert sich auf einen beliebten Clustering-Algorithmus – das hierarchische Clustering – und seine Implementierung in SciPy. Neben dem Ablauf zur Durchführung des hierarchischen Clustering hilft es dir, eine wichtige Frage zu beantworten: Wie viele Cluster sind in deinen Daten vorhanden? Das Kapitel endet mit einer Diskussion über die Grenzen des hierarchischen Clustering und mit Überlegungen zur praktischen Anwendung.

Exercise 1: Grundlagen der hierarchischen Clusterbildung Exercise 2: Hierarchisches Clustering: Ward-Methode Exercise 3: Hierarchisches Clustering: single-Methode Exercise 4: Hierarchisches Clustering: complete-Methode Exercise 5: Cluster visualisieren Exercise 6: Cluster mit matplotlib visualisieren Exercise 7: Cluster mit seaborn visualisieren Exercise 8: Wie viele Cluster?Exercise 9: Erstelle ein Dendrogramm Exercise 10: Wie viele Cluster gibt es in den Comic-Con-Daten?Exercise 11: Einschränkungen der hierarchischen Clusteranalyse Exercise 12: Laufzeitmessung bei hierarchischem Clustering Exercise 13: FIFA 18: Verteidiger erkunden

Dieses Kapitel führt einen anderen Clustering-Algorithmus ein – das K-Means-Clustering – und dessen Implementierung in SciPy. K-Means-Clustering überwindet den größten Nachteil des hierarchischen Clustering, der im letzten Kapitel besprochen wurde. Da Dendrogramme spezifisch für hierarchisches Clustering sind, wird in diesem Kapitel eine Methode behandelt, um die Anzahl der Cluster zu bestimmen, bevor du K-Means-Clustering ausführst. Das Kapitel schließt mit einer Diskussion über die Grenzen des K-Means-Clustering und mit Hinweisen zur Anwendung dieses Verfahrens.

Exercise 1: Grundlagen des k-means-clusterings Exercise 2: K-Means-Clustering: erste Übung Exercise 3: Laufzeit von k-means-clustering Exercise 4: Wie viele Cluster?Exercise 5: Elbow-Methode bei klar getrennten Clustern Exercise 6: Elbow-Methode bei gleichmäßig verteilten Daten Exercise 7: Einschränkungen des k-means-clusterings Exercise 8: Einfluss von Seeds auf unterschiedliche Cluster Exercise 9: Gleichförmige Cluster-Muster Exercise 10: FIFA 18: Verteidiger – nochmal betrachtet

Nachdem du nun zwei der beliebtesten Clustering-Techniken kennst, hilft dir dieses Kapitel, dieses Wissen auf reale Problemstellungen anzuwenden. Zuerst geht es um das Bestimmen dominanter Farben in einem Bild, bevor wir zum in der Einführung erwähnten Problem übergehen – dem Clustern von Nachrichtenartikeln. Abschließend folgt eine Diskussion über Clustering mit mehreren Variablen, was die Visualisierung aller Daten erschwert.

Exercise 1: Dominante Farben in Bildern Exercise 2: RGB-Werte aus einem Bild extrahieren Exercise 3: Wie viele dominierende Farben?Exercise 4: Dominante Farben anzeigen Exercise 5: Dokumenten-Clustering Exercise 6: TF-IDF von Filmhandlungen

Aktuelle Übung

Exercise 7: Top-Terme in Film-Clustern Exercise 8: Clustering mit mehreren Merkmalen Exercise 9: Clustering mit vielen Merkmalen Exercise 10: Grundlegende Checks für Cluster Exercise 11: FIFA 18: Was macht einen kompletten Spieler aus?Exercise 12: Zum Abschied!