spaCy-Vokabular

Wortvektoren, auch Word Embeddings, sind numerische Repräsentationen von Wörtern, mit denen Computer komplexe Aufgaben anhand von Textdaten ausführen können. Wortvektoren sind Teil vieler spaCy-Modelle, allerdings haben einige Modelle keine Wortvektoren.

In dieser Übung übst du den Zugriff auf Informationen zum spaCy-Vokabular. Einige Metainformationen über Wortvektoren sind in jedem spaCy-Modell gespeichert. Du kannst diese Informationen abrufen, um mehr über die Vokabulargröße, die Dimension der Wortvektoren usw. zu erfahren.

Das Paket spaCy ist bereits importiert. In den Metadaten eines spaCy-Modells ist die Anzahl der Wörter unter dem Schlüssel "vectors" gespeichert und die Dimension der Wortvektoren unter dem Schlüssel "width".

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing mit spaCy</Kurs>

Übungsanweisungen

Lade das Modell en_core_web_md.
Gib die Anzahl der Wörter im Vokabular des Modells en_core_web_md aus.
Gib die Dimension der Wortvektoren in en_core_web_md aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the en_core_web_md model
md_nlp = ____

# Print the number of words in the model's vocabulary
print("Number of words: ", md_nlp.____["vectors"]["vectors"], "\n")

# Print the dimensions of word vectors in en_core_web_md model
print("Dimension of word vectors: ", md_nlp.____["vectors"]["width"])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing mit spaCy</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du NLP kennen, inklusive einiger Anwendungsfälle wie die Erkennung benannter Entitäten und KI-gestützte Chatbots. Du erfährst, wie du die leistungsstarke Bibliothek spaCy für verschiedene Aufgaben der Sprachverarbeitung einsetzt, zum Beispiel Tokenisierung, Satzsegmentierung, POS-Tagging und Erkennung benannter Entitäten.

Exercise 1: Grundlagen der Natural Language Processing (NLP)Exercise 2: Doc-Container in spaCy Exercise 3: Anwendungsfall für NER Exercise 4: Tokenisierung mit spaCy Exercise 5: spaCy-Grundlagen Exercise 6: Eine spaCy-Pipeline ausführen Exercise 7: Lemmatisierung mit spaCy Exercise 8: Satzsegmentierung mit spaCy Exercise 9: Linguistische Merkmale in spaCy Exercise 10: POS-Tagging mit spaCy Exercise 11: NER mit spaCy Exercise 12: Textverarbeitung mit spaCy

Lerne sprachliche Merkmale, Wortvektoren, semantische Ähnlichkeit, Analogien und Operationen mit Wortvektoren kennen. In diesem Kapitel entdeckst du, wie du mit spaCy Wortvektoren extrahierst, Texte zu einem bestimmten Thema kategorisierst und semantisch ähnliche Begriffe zu gegebenen Wörtern aus einem Korpus oder aus dem Vokabular eines spaCy-Modells findest.

Exercise 1: Linguistische Merkmale Exercise 2: Linguistische Annotationen in spaCy Exercise 3: Wortsinndisambiguierung mit spaCy Exercise 4: Dependency Parsing mit spaCy Exercise 5: Einführung in Wortvektoren Exercise 6: spaCy-Vokabular

Aktuelle Übung

Exercise 7: Wortvektoren im spaCy-Vokabular Exercise 8: Wortvektoren und spaCy Exercise 9: Analogien und Vektoroperationen Exercise 10: Projektion von Wortvektoren Exercise 11: Ähnliche Wörter in einem Vokabular Exercise 12: Semantische Ähnlichkeit mit spaCy messen Exercise 13: Doc-Ähnlichkeit mit spaCy Exercise 14: Span-Ähnlichkeit mit spaCy Exercise 15: Semantische Ähnlichkeit zur Kategorisierung von Text

Mach dich mit spaCy-Pipeline-Komponenten vertraut, lerne, wie du eine Pipeline-Komponente hinzufügst, und analysiere die NLP-Pipeline. Außerdem lernst du mehrere Ansätze für regelbasierte Informationsextraktion kennen, mit den Klassen EntityRuler, Matcher und PhraseMatcher in spaCy sowie dem Python-Paket RegEx.

Exercise 1: spaCy-Pipelines Exercise 2: Pipes in spaCy hinzufügen Exercise 3: Pipelines in spaCy analysieren Exercise 4: spaCy EntityRuler Exercise 5: EntityRuler mit leerem spaCy-Modell Exercise 6: EntityRuler für NER Exercise 7: EntityRuler mit mehreren Mustern in spaCy Exercise 8: RegEx mit spaCy Exercise 9: RegEx in Python Exercise 10: RegEx mit EntityRuler in spaCy Exercise 11: spaCy Matcher und PhraseMatcher Exercise 12: Einen einzelnen Begriff in spaCy matchen Exercise 13: PhraseMatcher in spaCy Exercise 14: Abgleichen mit erweiterter Syntax in spaCy

Erkunde mehrere praxisnahe Anwendungsfälle, in denen spaCy-Modelle versagen können, und lerne, wie du sie weitertrainierst, um die Modellleistung zu verbessern. Du wirst in die Trainingsschritte von spaCy eingeführt und verstehst, wie du ein vorhandenes spaCy-Modell oder eines von Grund auf trainierst und das Modell zur Inferenzzeit evaluierst.

Exercise 1: spaCy-Modelle anpassen Exercise 2: spaCy-Modelle trainieren Exercise 3: Modellleistung auf deinen Daten Exercise 4: spaCy-Trainingsdatenformat Exercise 5: Trainingsschritte Exercise 6: Annotation und Vorbereitung von Trainingsdaten Exercise 7: Kompatible Trainingsdaten Exercise 8: Training mit spaCy Exercise 9: Schritte zur Trainingsvorbereitung Exercise 10: Ein vorhandenes NER-Modell trainieren Exercise 11: Ein spaCy-Modell von Grund auf trainieren Exercise 12: Abschluss