Visualisierung und Vergleich von Wort-Embeddings

Wort-Embeddings sind hochdimensional, was ihre direkte Interpretation erschwert. In dieser Übung projizierst du ein paar Wortvektoren mithilfe der Hauptkomponentenanalyse (PCA) auf 2D und machst sie sichtbar. Das hilft dabei, semantische Gruppierungen oder Ähnlichkeiten zwischen Wörtern im Einbettungsraum zu erkennen. Dann vergleichst du die Einbettungsdarstellungen zweier Modelle: „ glove-wiki-gigaword-50 ”, verfügbar über die Variable „ model_glove_wiki, ”, und „ glove-twitter-25 ”, verfügbar über model_glove_twitter.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne die Grundlagen der Textverarbeitung in der natürlichen Sprachverarbeitung (NLP). Lerne Techniken wie Tokenisierung, Entfernen von Stoppwörtern und Satzzeichen sowie Textnormalisierung mit Kleinbuchstaben, Stemming und Lemmatisierung, um Textdaten für die weitere Analyse und Erkenntnisgewinnung vorzubereiten.

Exercise 1: Einführung in die Verarbeitung natürlicher Sprache Exercise 2: Satz- und Wort-Tokenisierung Exercise 3: NLP-Arbeitsablauf Exercise 4: Stoppwörter und Interpunktion Exercise 5: Stoppwörter löschen Exercise 6: Interpunktion entfernen Exercise 7: Techniken zur Textnormalisierung Exercise 8: Kleinschreibung Exercise 9: Stemming Exercise 10: Lemmatisierung

Verwandle rohen Text in coole numerische Features. Erstell Bag-of-Words- und TF-IDF-Darstellungen, um die Wichtigkeit von Wörtern in Dokumenten zu erfassen, und schau dir dann Wort-Embeddings wie Word2Vec und GloVe an, um tiefere semantische Muster zu entdecken. Zeig Häufigkeit, Relevanz und Ähnlichkeit, um deine Textdaten zum Leben zu erwecken.

Exercise 1: Bag-of-Words-Darstellung Exercise 2: Vokabeln aus Kundenbewertungen lernen Exercise 3: Text mit BoW in Zahlen umwandeln Exercise 4: Häufigkeit, mit der Produktbewertungen vorkommen Exercise 5: Wortfrequenzen anschaulich machen Exercise 6: TF-IDF-Vektorisierung Exercise 7: TF-IDF-Darstellung von Produktbewertungen Exercise 8: Vergleich zwischen BoW- und TF-IDF-Darstellungen Exercise 9: Embeddings Exercise 10: Wortbeziehungen mit Einbettungen erkunden Exercise 11: Visualisierung und Vergleich von Wort-Embeddings

Aktuelle Übung

Nutze die Power von vorab trainierten Modellen, um anspruchsvolle Textklassifizierungsaufgaben zu erledigen. Nutze die Pipelines von Hugging Face für Sentimentanalysen, Themenklassifizierung und natürliche Sprachauslegung. Mit den neuesten Modellen kannst du semantische Ähnlichkeit und Grammatikalität checken, ohne irgendwas von Grund auf neu zu entwickeln.

Exercise 1: Hugging Face-Pipelines für die Sentimentanalyse Exercise 2: Die Stimmung einer Bewertung analysieren Exercise 3: Mehrere Bewertungen gleichzeitig sortieren Exercise 4: Modelle anhand von gekennzeichneten Bewertungsdaten vergleichen Exercise 5: Zero-Shot-Klassifizierung und QNLI Exercise 6: Zero-Shot-Klassifizierung von Support-Tickets Exercise 7: Beantwortet der Text die Frage?Exercise 8: Fragenähnlichkeit und grammatikalische Korrektheit Exercise 9: Doppelte Fragen erkennen Exercise 10: Grammatik checken

Tauche ein in die Welt der modernen NLP-Anwendungen mit Token-Klassifizierung und Textgenerierungstechniken. Lerne, wie du mit NER und PoS-Tagging wichtige Entitäten und grammatikalische Strukturen herausziehen kannst. Lerne, wie man extraktive und abstrakte Fragen beantwortet, und probier mal fortgeschrittene Generierungsaufgaben wie Zusammenfassung, Übersetzung und Sprachmodellierung mit Pipelines von Hugging Face aus.

Exercise 1: Token-Klassifizierung Exercise 2: Named Entities in Schlagzeilen erkennen Exercise 3: Wortart-Tagging für die Textanalyse Exercise 4: Fragen beantworten Exercise 5: Fragen aus Produktbeschreibungen beantworten Exercise 6: Natürliche Antworten mit abstrakter QA generieren Exercise 7: Aufgaben zur Sequenzerstellung Exercise 8: Nachrichtenartikel zusammenfassen, um schnell einen Überblick zu bekommen Exercise 9: Kundenbewertungen ins Französische übersetzen Exercise 10: Ein Suchvervollständigungssystem aufbauen Exercise 11: Glückwunsch!