Nicht-Ascii-Tokenisierung

In dieser Übung übst du die fortgeschrittene Tokenisierung, indem du einen nicht-aszii-basierten Text in Token umwandelst. Du wirst Deutsch mit Emoji benutzen!

Hier hast du Zugriff auf eine Zeichenkette namens german_text, die für dich in der Shell gedruckt wurde. Beachte das Emoji und die deutschen Schriftzeichen!

Die folgenden Module wurden von nltk.tokenize vorimportiert: regexp_tokenize und word_tokenize.

Die Unicode-Bereiche für Emoji sind:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), und ('\u2600'-\u26FF-\u2700-\u27BF').

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Anleitung zur Übung

Tokenisiere alle Wörter in german_text mit word_tokenize() und drucke das Ergebnis aus.
Tokenisiere nur die großen Wörter in german_text.
- Schreibe zunächst ein Muster mit dem Namen capital_words, um nur große Wörter zu finden. Schau auf jeden Fall nach der deutschen Ü! Um dieses Zeichen in der Übung zu verwenden, kopiere es und füge es aus dieser Anleitung ein.
- Dann tokenisiere sie mit regexp_tokenize().
Tokenisiere nur die Emoji in german_text. Das Muster, das die im Aufgabentext angegebenen Unicode-Bereiche für Emoji verwendet, wurde für dich geschrieben. Deine Aufgabe ist es, das Emoji mit regexp_tokenize() zu tokenisieren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel werden einige grundlegende Konzepte von NLP vorgestellt, z. B. die Tokenisierung von Wörtern und reguläre Ausdrücke, die beim Parsen von Text helfen. Außerdem lernst du, wie du mit nicht-englischen Texten und schwierigeren Tokenisierungen umgehst, die du vielleicht findest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke üben: re.split() und re.findall()Exercise 4: Einführung in die Tokenisierung Exercise 5: Wort-Tokenisierung mit NLTK Exercise 6: Mehr Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Auswahl eines Tokenizers Exercise 9: Regex mit NLTK Tokenisierung Exercise 10: Nicht-Ascii-Tokenisierung

Aktuelle Übung

Exercise 11: Kartierung der Wortlänge mit NLTK Exercise 12: Charting Praxis

Dieses Kapitel führt dich in die Themenfindung ein, die du auf jeden Text anwenden kannst, der dir in der Natur begegnet. Mithilfe grundlegender NLP Modelle identifizierst du Themen aus Texten anhand von Begriffshäufigkeiten. Du wirst zwei einfache Methoden ausprobieren und vergleichen: Bag-of-Words und Tf-idf mit NLTK und einer neuen Bibliothek Gensim.

Exercise 1: Wörter zählen mit Bag-of-Words Exercise 2: Bag-of-Words-Auswahl Exercise 3: Einen Zähler mit Bag-of-Words bauen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Praxis der Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Erstellen und Abfragen eines Korpus mit gensim Exercise 10: Gensim bag-of-words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

In diesem Kapitel geht es um ein etwas fortgeschritteneres Thema: die Erkennung von Namen (named-entity). Du lernst, wie du das "Wer", "Was" und "Wo" deiner Texte mit Hilfe von vortrainierten Modellen für englische und nicht-englische Texte identifizieren kannst. Außerdem lernst du, wie du die neuen Bibliotheken polyglot und spaCy nutzen kannst, um deinen NLP Werkzeugkasten zu erweitern.

Exercise 1: Erkennung von benannten Entitäten Exercise 2: NER mit NLTK Exercise 3: Charting Praxis Exercise 4: Stanford Bibliothek mit NLTK Exercise 5: Einführung in SpaCy Exercise 6: Vergleich von NLTK mit spaCy NER Exercise 7: spaCy NER Kategorien Exercise 8: Mehrsprachig NER mit polyglott Exercise 9: Französisch NER mit Polyglott I Exercise 10: Französisch NER mit Polyglott II Exercise 11: Spanisch NER mit Polyglott

Du wendest die Grundlagen des Gelernten zusammen mit überwachtem maschinellem Lernen an, um einen "Fake News"-Detektor zu entwickeln. Du lernst zunächst die Grundlagen des überwachten maschinellen Lernens und wählst dann einige wichtige Merkmale aus und testest Ideen zur Identifizierung und Klassifizierung von Fake-News-Artikeln.

Exercise 1: Klassifizierung von Fake News durch überwachtes Lernen mit NLP Exercise 2: Welche Merkmale sind möglich?Exercise 3: Ausbildung und Prüfung Exercise 4: Erstellen von Wortzählungsvektoren mit Scikit-Learn Exercise 5: CountVectorizer für die Textklassifizierung Exercise 6: TfidfVectorizer für die Textklassifizierung Exercise 7: Prüfung der Vektoren Exercise 8: Trainieren und Testen eines Klassifizierungsmodells mit Scikit-Learn Exercise 9: Modelle zur Textklassifizierung Exercise 10: Training und Test des "Fake News"-Modells mit CountVectorizer Exercise 11: Training und Test des "Fake News"-Modells mit TfidfVectorizer Exercise 12: Einfache NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Verbessere dein Modell Exercise 15: Inspektion deines Modells