Ein Korpus mit gensim erstellen und abfragen

Zeit, die Methoden aus dem vorherigen Video anzuwenden und dein erstes gensim-Dictionary und deinen Korpus zu erstellen!

Diese Datenstrukturen nutzt du, um Worttrends und mögliche interessante Themen in deinem Dokumentendatensatz zu untersuchen. Zum Start haben wir ein paar zusätzliche, unaufgeräumte Wikipedia-Artikel importiert, die vorverarbeitet wurden, indem alle Wörter kleingeschrieben, tokenisiert und Stoppwörter sowie Satzzeichen entfernt wurden. Diese wurden dann in einer Liste von Dokument-Token namens articles gespeichert. Du musst noch eine kleine Vorverarbeitung vornehmen und anschließend das gensim-Dictionary und den Korpus erzeugen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Übungsanweisungen

Importiere Dictionary aus gensim.corpora.dictionary.
Initialisiere ein gensim-Dictionary mit den Token in articles.
Ermittle die ID für "computer" aus dictionary. Verwende dazu die Methode .token2id, die IDs aus Text zurückgibt, und hänge dann .get() an, welche Tokens aus IDs zurückgibt. Übergebe "computer" als Argument an .get().
Verwende eine Listenabstraktion, in der du über articles iterierst, um aus dictionary einen gensim-MmCorpus zu erstellen.
- Nutze im Ausdruck die Methode .doc2bow() auf dictionary mit article als Argument.
Gib die ersten zehn Wort-IDs mit ihren Häufigkeiten aus dem fünften Dokument aus. Das wurde bereits für dich vorbereitet – klicke auf "Antworten", um die Ergebnisse zu sehen!

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import Dictionary
____

# Create a Dictionary from the articles: dictionary
dictionary = ____(____)

# Select the id for "computer": computer_id
computer_id = ____.____.get("____")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende NLP-Konzepte kennen, etwa Wort-Tokenisierung und reguläre Ausdrücke, um Text zu parsen. Du lernst auch, wie du nichtenglischen Text verarbeitest und schwierigere Tokenisierungsfälle meisterst, auf die du stoßen könntest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke: re.split() und re.findall()Exercise 4: Einstieg in die Tokenisierung Exercise 5: Worttokenisierung mit NLTK Exercise 6: Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Einen Tokenizer auswählen Exercise 9: Regex mit NLTK-Tokenisierung Exercise 10: Nicht-ASCII-Tokenisierung Exercise 11: Wortlängen mit NLTK visualisieren Exercise 12: Diagramm-Übung

Dieses Kapitel führt dich in die Themenidentifikation ein, die du auf beliebige Texte in freier Wildbahn anwenden kannst. Mit einfachen NLP-Modellen identifizierst du Themen anhand von Termhäufigkeiten. Du experimentierst mit zwei einfachen Methoden und vergleichst sie: Bag-of-Words und Tf-idf mit NLTK sowie der neuen Bibliothek Gensim.

Exercise 1: Wortzählung mit Bag-of-Words Exercise 2: Bag-of-Words verstanden?Exercise 3: Einen Counter mit Bag-of-Words erstellen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Übung zur Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Ein Korpus mit gensim erstellen und abfragen

Aktuelle Übung

Exercise 10: Gensim Bag-of-Words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

Dieses Kapitel führt ein etwas fortgeschritteneres Thema ein: die Erkennung benannter Entitäten. Du lernst, das Wer, Was und Wo deiner Texte zu identifizieren – mithilfe vortrainierter Modelle für englische und nichtenglische Texte. Außerdem lernst du neue Bibliotheken kennen, polyglot und spaCy, um deinen NLP-Werkzeugkasten zu erweitern.

Exercise 1: Named Entity Recognition Exercise 2: NER mit NLTK Exercise 3: Diagramm-Übung Exercise 4: Stanford-Bibliothek mit NLTK Exercise 5: Einführung in spaCy Exercise 6: NLTK mit spaCy-NER vergleichen Exercise 7: spaCy NER-Kategorien Exercise 8: Mehrsprachige NER mit polyglot Exercise 9: Französische NER mit polyglot I Exercise 10: Französische NER mit polyglot II Exercise 11: Spanische NER mit polyglot

Du wendest die Grundlagen, die du gelernt hast, zusammen mit überwachtem maschinellem Lernen an, um einen „Fake News“-Detektor zu bauen. Du startest mit den Grundlagen des überwachten Lernens und wählst anschließend einige wichtige Features aus, um Ideen zu testen und Fake-News-Artikel zu identifizieren und zu klassifizieren.

Exercise 1: Fake News mit überwachten Lernverfahren und NLP klassifizieren Exercise 2: Möglichen Merkmale Exercise 3: Trainieren und Testen Exercise 4: Wortzählvektoren mit scikit-learn erstellen Exercise 5: CountVectorizer für Textklassifizierung Exercise 6: TfidfVectorizer für Textklassifikation Exercise 7: Vektoren analysieren Exercise 8: Ein Klassifikationsmodell mit scikit-learn trainieren und testen Exercise 9: Modelle zur Textklassifikation Exercise 10: Das „Fake News“-Modell mit CountVectorizer trainieren und testen Exercise 11: Training und Testen des „Fake News“-Modells mit TfidfVectorizer Exercise 12: Einfaches NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Dein Modell verbessern Exercise 15: Dein Modell untersuchen