NLTK mit spaCy-NER vergleichen

Mit demselben Text wie in der ersten Übung dieses Kapitels wirst du gleich die Ergebnisse mit spaCys NER-Annotator sehen. Wie schneiden beide im Vergleich ab?

Der Artikel wurde als article vorab geladen. Um die Laufzeit zu minimieren, sollst du beim Laden des spaCy-Modells das Schlüsselwortargument disable=['tagger', 'parser', 'matcher'] angeben, weil dich in dieser Übung nur entity interessiert.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Übungsanweisungen

Importiere spacy.
Lade das Modell 'en_core_web_sm' mit spacy.load(). Gib zusätzlich die Schlüsselwortargumente disable=['tagger', 'parser', 'matcher'] an.
Erstelle ein spacy-Dokumentobjekt, indem du article an nlp() übergibst.
Verwende ent als Iterationsvariable, iteriere über die Entitäten von doc und gib die Labels (ent.label_) und den Text (ent.text) aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import spacy
____

# Instantiate the English model: nlp
nlp = ____

# Create a new document: doc
doc = ____

# Print all of the found entities and their labels
for ____ in ____:
    print(____, ____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende NLP-Konzepte kennen, etwa Wort-Tokenisierung und reguläre Ausdrücke, um Text zu parsen. Du lernst auch, wie du nichtenglischen Text verarbeitest und schwierigere Tokenisierungsfälle meisterst, auf die du stoßen könntest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke: re.split() und re.findall()Exercise 4: Einstieg in die Tokenisierung Exercise 5: Worttokenisierung mit NLTK Exercise 6: Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Einen Tokenizer auswählen Exercise 9: Regex mit NLTK-Tokenisierung Exercise 10: Nicht-ASCII-Tokenisierung Exercise 11: Wortlängen mit NLTK visualisieren Exercise 12: Diagramm-Übung

Dieses Kapitel führt dich in die Themenidentifikation ein, die du auf beliebige Texte in freier Wildbahn anwenden kannst. Mit einfachen NLP-Modellen identifizierst du Themen anhand von Termhäufigkeiten. Du experimentierst mit zwei einfachen Methoden und vergleichst sie: Bag-of-Words und Tf-idf mit NLTK sowie der neuen Bibliothek Gensim.

Exercise 1: Wortzählung mit Bag-of-Words Exercise 2: Bag-of-Words verstanden?Exercise 3: Einen Counter mit Bag-of-Words erstellen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Übung zur Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Ein Korpus mit gensim erstellen und abfragen Exercise 10: Gensim Bag-of-Words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

Dieses Kapitel führt ein etwas fortgeschritteneres Thema ein: die Erkennung benannter Entitäten. Du lernst, das Wer, Was und Wo deiner Texte zu identifizieren – mithilfe vortrainierter Modelle für englische und nichtenglische Texte. Außerdem lernst du neue Bibliotheken kennen, polyglot und spaCy, um deinen NLP-Werkzeugkasten zu erweitern.

Exercise 1: Named Entity Recognition Exercise 2: NER mit NLTK Exercise 3: Diagramm-Übung Exercise 4: Stanford-Bibliothek mit NLTK Exercise 5: Einführung in spaCy Exercise 6: NLTK mit spaCy-NER vergleichen

Aktuelle Übung

Exercise 7: spaCy NER-Kategorien Exercise 8: Mehrsprachige NER mit polyglot Exercise 9: Französische NER mit polyglot I Exercise 10: Französische NER mit polyglot II Exercise 11: Spanische NER mit polyglot

Du wendest die Grundlagen, die du gelernt hast, zusammen mit überwachtem maschinellem Lernen an, um einen „Fake News“-Detektor zu bauen. Du startest mit den Grundlagen des überwachten Lernens und wählst anschließend einige wichtige Features aus, um Ideen zu testen und Fake-News-Artikel zu identifizieren und zu klassifizieren.

Exercise 1: Fake News mit überwachten Lernverfahren und NLP klassifizieren Exercise 2: Möglichen Merkmale Exercise 3: Trainieren und Testen Exercise 4: Wortzählvektoren mit scikit-learn erstellen Exercise 5: CountVectorizer für Textklassifizierung Exercise 6: TfidfVectorizer für Textklassifikation Exercise 7: Vektoren analysieren Exercise 8: Ein Klassifikationsmodell mit scikit-learn trainieren und testen Exercise 9: Modelle zur Textklassifikation Exercise 10: Das „Fake News“-Modell mit CountVectorizer trainieren und testen Exercise 11: Training und Testen des „Fake News“-Modells mit TfidfVectorizer Exercise 12: Einfaches NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Dein Modell verbessern Exercise 15: Dein Modell untersuchen