Diese Übung ist Teil des Kurses
Lerne, wie du die zugrunde liegenden Gruppen (oder "Cluster") in einem Datensatz entdecken kannst. Am Ende dieses Kapitels wirst du in der Lage sein, Unternehmen anhand ihrer Börsenkurse in Clustern zusammenzufassen und die verschiedenen Arten anhand ihrer Messwerte zu unterscheiden.
In diesem Kapitel lernst du zwei unüberwachte Lerntechniken für die Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Beim hierarchischen Clustering werden die Datenproben zu immer gröberen Clustern zusammengefasst und die daraus resultierende Clusterhierarchie in einem Baum visualisiert. t-SNE bildet die Datenproben im 2D-Raum ab, sodass die Nähe der Proben zueinander visualisiert werden kann.
Die Dimensionsreduktion fasst einen Datensatz anhand seiner häufig vorkommenden Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik zur Dimensionsreduktion kennen, die "Hauptkomponentenanalyse" ("PCA"). PCA wird oft vor dem überwachten Lernen eingesetzt, um die Leistung und Verallgemeinerung der Modelle zu verbessern. Sie kann auch für unüberwachtes Lernen nützlich sein. Mit einer Variante von PCA kannst du zum Beispiel Wikipedia-Artikel nach ihrem Inhalt clustern!
Aktuelle Übung
In diesem Kapitel lernst du eine Technik zur Dimensionsreduzierung kennen, die "Nicht-negative Matrixfaktorisierung" ("NMF"), die Stichproben als Kombinationen von interpretierbaren Teilen ausdrückt. Es drückt zum Beispiel Dokumente als Kombinationen von Themen und Bilder als häufig vorkommende visuelle Muster aus. Du lernst auch, wie du mit NMF Empfehlungssysteme erstellen kannst, die dir ähnliche Artikel zum Lesen oder Musikkünstler, die zu deinem Hörverhalten passen, finden!