Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?

Im Video hast du gelernt, wie du NMF-Merkmale und die Kosinus-Ähnlichkeit nutzt, um ähnliche Artikel zu finden. Wende das auf dein NMF-Modell für beliebte Wikipedia-Artikel an, indem du die Artikel findest, die dem Artikel über den Fußballer Cristiano Ronaldo am ähnlichsten sind. Die NMF-Merkmale, die du zuvor erhalten hast, stehen als nmf_features zur Verfügung, und titles ist eine Liste der Artikeltitel.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere normalize aus sklearn.preprocessing.
Wende die Funktion normalize() auf nmf_features an. Speichere das Ergebnis als norm_features.
Erstelle ein DataFrame df aus norm_features und verwende titles als Index.
Verwende .loc[] von df, um die Zeile von 'Cristiano Ronaldo' auszuwählen. Weise das Ergebnis article zu.
Wende die Methode .dot() von df auf article an, um die Kosinus-Ähnlichkeit jeder Zeile mit article zu berechnen.
Gib das Ergebnis der Methode .nlargest() von similarities aus, um die ähnlichsten Artikel anzuzeigen. Das wurde bereits für dich erledigt, also klicke auf 'Antworten', um das Ergebnis zu sehen!

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Perform the necessary imports
import pandas as pd
from ____ import ____

# Normalize the NMF features: norm_features
norm_features = ____

# Create a DataFrame: df
df = ____

# Select the row corresponding to 'Cristiano Ronaldo': article
article = df.loc[____]

# Compute the dot products: similarities
similarities = ____

# Display those with the largest cosine similarity
print(similarities.nlargest())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne, die zugrunde liegenden Gruppen (oder „Cluster“) in einem Datensatz zu entdecken. Am Ende dieses Kapitels clusterst du Unternehmen anhand ihrer Aktienkurse und unterscheidest verschiedene Arten, indem du ihre Messwerte clustert.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: Clustering von zweidimensionalen Punkten Exercise 4: Untersuche dein Clustering Exercise 5: Bewertung eines Clustering Exercise 6: Wie viele Getreide-Cluster?Exercise 7: Bewertung des Getreide-Clusterings Exercise 8: Merkmale transformieren für bessere Clusterings Exercise 9: Fischdaten fürs Clustering skalieren Exercise 10: Fischdaten clustern Exercise 11: Aktien mit KMeans clustern Exercise 12: Welche Aktien bewegen sich gemeinsam?

In diesem Kapitel lernst du zwei Unsupervised-Learning-Techniken zur Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Hierarchisches Clustering fasst Datenproben zu immer gröberen Clustern zusammen und erzeugt so eine Baumvisualisierung der resultierenden Cluster-Hierarchie. t-SNE projiziert die Datenproben in einen 2D-Raum, sodass ihre Nähe zueinander visuell dargestellt werden kann.

Exercise 1: Visualisierung von Hierarchien Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Getreidedaten Exercise 4: Hierarchien von Aktien Exercise 5: Cluster-Labels in der hierarchischen Clusterbildung Exercise 6: Welche Cluster liegen am nächsten?Exercise 7: Andere Linkage-Variante, anderes hierarchisches Clustering!Exercise 8: Clustering auf Zwischenstufen Exercise 9: Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Repräsentationen Exercise 11: t-SNE-Visualisierung des Getreide-Datensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarkts

Dimensionsreduktion fasst einen Datensatz anhand häufig auftretender Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik der Dimensionsreduktion kennen: die „Principal Component Analysis“ („PCA“). PCA wird oft vor dem Supervised Learning eingesetzt, um Modellleistung und Generalisierung zu verbessern. Es ist auch für Unsupervised Learning nützlich. Du wirst zum Beispiel eine Variante von PCA verwenden, mit der du Wikipedia-Artikel nach ihrem Inhalt clustern kannst!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Dekorrelation der Getreidemessungen mit PCA Exercise 4: Principal components (Hauptkomponenten)Exercise 5: Intrinsische Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Intrinsische Dimension der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Dimensionsreduktion der Fischmessungen Exercise 11: Ein tf-idf-Worthäufigkeit-Array Exercise 12: Wikipedia clustern, Teil I Exercise 13: Wikipedia clustern, Teil II

In diesem Kapitel lernst du eine Technik der Dimensionsreduktion kennen, die „Non-negative Matrix Factorization“ („NMF“), die Proben als Kombinationen interpretierbarer Teile darstellt. So werden etwa Dokumente als Kombinationen von Themen ausgedrückt und Bilder anhand häufig auftretender visueller Muster. Außerdem lernst du, mit NMF Empfehlungssysteme zu bauen, die dir ähnliche Artikel zum Lesen vorschlagen oder Musik-Künstlerinnen und -Künstler empfehlen, die zu deinem Hörverhalten passen!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?

Aktuelle Übung

Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken