Diese Übung ist Teil des Kurses
In diesem Kapitel werden einige grundlegende Konzepte von NLP vorgestellt, z. B. die Tokenisierung von Wörtern und reguläre Ausdrücke, die beim Parsen von Text helfen. Außerdem lernst du, wie du mit nicht-englischen Texten und schwierigeren Tokenisierungen umgehst, die du vielleicht findest.
Dieses Kapitel führt dich in die Themenfindung ein, die du auf jeden Text anwenden kannst, der dir in der Natur begegnet. Mithilfe grundlegender NLP Modelle identifizierst du Themen aus Texten anhand von Begriffshäufigkeiten. Du wirst zwei einfache Methoden ausprobieren und vergleichen: Bag-of-Words und Tf-idf mit NLTK und einer neuen Bibliothek Gensim.
In diesem Kapitel geht es um ein etwas fortgeschritteneres Thema: die Erkennung von Namen (named-entity). Du lernst, wie du das "Wer", "Was" und "Wo" deiner Texte mit Hilfe von vortrainierten Modellen für englische und nicht-englische Texte identifizieren kannst. Außerdem lernst du, wie du die neuen Bibliotheken polyglot und spaCy nutzen kannst, um deinen NLP Werkzeugkasten zu erweitern.
Du wendest die Grundlagen des Gelernten zusammen mit überwachtem maschinellem Lernen an, um einen "Fake News"-Detektor zu entwickeln. Du lernst zunächst die Grundlagen des überwachten maschinellen Lernens und wählst dann einige wichtige Merkmale aus und testest Ideen zur Identifizierung und Klassifizierung von Fake-News-Artikeln.
Aktuelle Übung