Ein tf-idf-Worthäufigkeit-Array

In dieser Übung erstellst du ein tf-idf-Worthäufigkeit-Array für eine kleine Sammlung von Dokumenten. Verwende dafür den TfidfVectorizer aus sklearn. Er transformiert eine Liste von Dokumenten in ein Worthäufigkeit-Array und gibt dieses als csr_matrix aus. Der Vectorizer hat wie andere sklearn-Objekte die Methoden fit() und transform().

Du erhältst eine Liste namens documents mit Dokumenten über Haustiere.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
Erstelle eine TfidfVectorizer-Instanz namens tfidf.
Wende die Methode .fit_transform() von tfidf auf documents an und weise das Ergebnis csr_mat zu. Das ist ein Wortfrequenz-Array im csr_matrix-Format.
Untersuche csr_mat, indem du seine Methode .toarray() aufrufst und das Ergebnis ausgibst. Das wurde bereits für dich erledigt.
Die Spalten des Arrays entsprechen Wörtern. Rufe die Methode .get_feature_names_out() von tfidf auf, um die Liste der Wörter zu erhalten, und weise das Ergebnis words zu.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne, die zugrunde liegenden Gruppen (oder „Cluster“) in einem Datensatz zu entdecken. Am Ende dieses Kapitels clusterst du Unternehmen anhand ihrer Aktienkurse und unterscheidest verschiedene Arten, indem du ihre Messwerte clustert.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: Clustering von zweidimensionalen Punkten Exercise 4: Untersuche dein Clustering Exercise 5: Bewertung eines Clustering Exercise 6: Wie viele Getreide-Cluster?Exercise 7: Bewertung des Getreide-Clusterings Exercise 8: Merkmale transformieren für bessere Clusterings Exercise 9: Fischdaten fürs Clustering skalieren Exercise 10: Fischdaten clustern Exercise 11: Aktien mit KMeans clustern Exercise 12: Welche Aktien bewegen sich gemeinsam?

In diesem Kapitel lernst du zwei Unsupervised-Learning-Techniken zur Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Hierarchisches Clustering fasst Datenproben zu immer gröberen Clustern zusammen und erzeugt so eine Baumvisualisierung der resultierenden Cluster-Hierarchie. t-SNE projiziert die Datenproben in einen 2D-Raum, sodass ihre Nähe zueinander visuell dargestellt werden kann.

Exercise 1: Visualisierung von Hierarchien Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Getreidedaten Exercise 4: Hierarchien von Aktien Exercise 5: Cluster-Labels in der hierarchischen Clusterbildung Exercise 6: Welche Cluster liegen am nächsten?Exercise 7: Andere Linkage-Variante, anderes hierarchisches Clustering!Exercise 8: Clustering auf Zwischenstufen Exercise 9: Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Repräsentationen Exercise 11: t-SNE-Visualisierung des Getreide-Datensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarkts

Dimensionsreduktion fasst einen Datensatz anhand häufig auftretender Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik der Dimensionsreduktion kennen: die „Principal Component Analysis“ („PCA“). PCA wird oft vor dem Supervised Learning eingesetzt, um Modellleistung und Generalisierung zu verbessern. Es ist auch für Unsupervised Learning nützlich. Du wirst zum Beispiel eine Variante von PCA verwenden, mit der du Wikipedia-Artikel nach ihrem Inhalt clustern kannst!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Dekorrelation der Getreidemessungen mit PCA Exercise 4: Principal components (Hauptkomponenten)Exercise 5: Intrinsische Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Intrinsische Dimension der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Dimensionsreduktion der Fischmessungen Exercise 11: Ein tf-idf-Worthäufigkeit-Array

Aktuelle Übung

Exercise 12: Wikipedia clustern, Teil I Exercise 13: Wikipedia clustern, Teil II

In diesem Kapitel lernst du eine Technik der Dimensionsreduktion kennen, die „Non-negative Matrix Factorization“ („NMF“), die Proben als Kombinationen interpretierbarer Teile darstellt. So werden etwa Dokumente als Kombinationen von Themen ausgedrückt und Bilder anhand häufig auftretender visueller Muster. Außerdem lernst du, mit NMF Empfehlungssysteme zu bauen, die dir ähnliche Artikel zum Lesen vorschlagen oder Musik-Künstlerinnen und -Künstler empfehlen, die zu deinem Hörverhalten passen!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken