Einen Tokenizer auswählen

Welches der folgenden Muster ist für diesen String der beste Tokenizer? Wenn möglich, sollen Satzzeichen als eigene Tokens erhalten bleiben, aber '#1' soll ein einzelnes Token bleiben.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

Der String steht dir in deinem Workspace als my_string zur Verfügung, und die Muster wurden als pattern1, pattern2, pattern3 und pattern4 vorab geladen.

Außerdem wurde regexp_tokenize aus nltk.tokenize importiert. Du kannst regexp_tokenize(string, pattern) mit my_string und einem der Muster als Argumente verwenden, um selbst zu testen, welches der beste Tokenizer ist.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende NLP-Konzepte kennen, etwa Wort-Tokenisierung und reguläre Ausdrücke, um Text zu parsen. Du lernst auch, wie du nichtenglischen Text verarbeitest und schwierigere Tokenisierungsfälle meisterst, auf die du stoßen könntest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke: re.split() und re.findall()Exercise 4: Einstieg in die Tokenisierung Exercise 5: Worttokenisierung mit NLTK Exercise 6: Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Einen Tokenizer auswählen

Aktuelle Übung

Exercise 9: Regex mit NLTK-Tokenisierung Exercise 10: Nicht-ASCII-Tokenisierung Exercise 11: Wortlängen mit NLTK visualisieren Exercise 12: Diagramm-Übung

Dieses Kapitel führt dich in die Themenidentifikation ein, die du auf beliebige Texte in freier Wildbahn anwenden kannst. Mit einfachen NLP-Modellen identifizierst du Themen anhand von Termhäufigkeiten. Du experimentierst mit zwei einfachen Methoden und vergleichst sie: Bag-of-Words und Tf-idf mit NLTK sowie der neuen Bibliothek Gensim.

Exercise 1: Wortzählung mit Bag-of-Words Exercise 2: Bag-of-Words verstanden?Exercise 3: Einen Counter mit Bag-of-Words erstellen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Übung zur Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Ein Korpus mit gensim erstellen und abfragen Exercise 10: Gensim Bag-of-Words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

Dieses Kapitel führt ein etwas fortgeschritteneres Thema ein: die Erkennung benannter Entitäten. Du lernst, das Wer, Was und Wo deiner Texte zu identifizieren – mithilfe vortrainierter Modelle für englische und nichtenglische Texte. Außerdem lernst du neue Bibliotheken kennen, polyglot und spaCy, um deinen NLP-Werkzeugkasten zu erweitern.

Exercise 1: Named Entity Recognition Exercise 2: NER mit NLTK Exercise 3: Diagramm-Übung Exercise 4: Stanford-Bibliothek mit NLTK Exercise 5: Einführung in spaCy Exercise 6: NLTK mit spaCy-NER vergleichen Exercise 7: spaCy NER-Kategorien Exercise 8: Mehrsprachige NER mit polyglot Exercise 9: Französische NER mit polyglot I Exercise 10: Französische NER mit polyglot II Exercise 11: Spanische NER mit polyglot

Du wendest die Grundlagen, die du gelernt hast, zusammen mit überwachtem maschinellem Lernen an, um einen „Fake News“-Detektor zu bauen. Du startest mit den Grundlagen des überwachten Lernens und wählst anschließend einige wichtige Features aus, um Ideen zu testen und Fake-News-Artikel zu identifizieren und zu klassifizieren.

Exercise 1: Fake News mit überwachten Lernverfahren und NLP klassifizieren Exercise 2: Möglichen Merkmale Exercise 3: Trainieren und Testen Exercise 4: Wortzählvektoren mit scikit-learn erstellen Exercise 5: CountVectorizer für Textklassifizierung Exercise 6: TfidfVectorizer für Textklassifikation Exercise 7: Vektoren analysieren Exercise 8: Ein Klassifikationsmodell mit scikit-learn trainieren und testen Exercise 9: Modelle zur Textklassifikation Exercise 10: Das „Fake News“-Modell mit CountVectorizer trainieren und testen Exercise 11: Training und Testen des „Fake News“-Modells mit TfidfVectorizer Exercise 12: Einfaches NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Dein Modell verbessern Exercise 15: Dein Modell untersuchen