TfidfVectorizer für Textklassifikation

Ähnlich wie beim einfachen CountVectorizer aus der vorherigen Übung erstellst du nun tf-idf-Vektoren für deine Dokumente. Du richtest einen TfidfVectorizer ein und untersuchst einige seiner Eigenschaften.

In dieser Übung verwendest du pandas und sklearn zusammen mit denselben DataFrames und Series X_train, y_train sowie X_test, y_test, die du in der letzten Übung erstellt hast.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Übungsanweisungen

Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
Erstelle ein TfidfVectorizer-Objekt mit dem Namen tfidf_vectorizer. Gib dabei die Schlüsselwortargumente stop_words="english" und max_df=0.7 an.
Fitte und transformiere die Trainingsdaten.
Transformiere die Testdaten.
Gib die ersten zehn Merkmale von tfidf_vectorizer aus.
Gib die ersten fünf Vektoren der tfidf-Trainingsdaten aus, indem du Slicing auf dem Attribut .A (oder Array) von tfidf_train anwendest.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende NLP-Konzepte kennen, etwa Wort-Tokenisierung und reguläre Ausdrücke, um Text zu parsen. Du lernst auch, wie du nichtenglischen Text verarbeitest und schwierigere Tokenisierungsfälle meisterst, auf die du stoßen könntest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke: re.split() und re.findall()Exercise 4: Einstieg in die Tokenisierung Exercise 5: Worttokenisierung mit NLTK Exercise 6: Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Einen Tokenizer auswählen Exercise 9: Regex mit NLTK-Tokenisierung Exercise 10: Nicht-ASCII-Tokenisierung Exercise 11: Wortlängen mit NLTK visualisieren Exercise 12: Diagramm-Übung

Dieses Kapitel führt dich in die Themenidentifikation ein, die du auf beliebige Texte in freier Wildbahn anwenden kannst. Mit einfachen NLP-Modellen identifizierst du Themen anhand von Termhäufigkeiten. Du experimentierst mit zwei einfachen Methoden und vergleichst sie: Bag-of-Words und Tf-idf mit NLTK sowie der neuen Bibliothek Gensim.

Exercise 1: Wortzählung mit Bag-of-Words Exercise 2: Bag-of-Words verstanden?Exercise 3: Einen Counter mit Bag-of-Words erstellen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Übung zur Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Ein Korpus mit gensim erstellen und abfragen Exercise 10: Gensim Bag-of-Words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

Dieses Kapitel führt ein etwas fortgeschritteneres Thema ein: die Erkennung benannter Entitäten. Du lernst, das Wer, Was und Wo deiner Texte zu identifizieren – mithilfe vortrainierter Modelle für englische und nichtenglische Texte. Außerdem lernst du neue Bibliotheken kennen, polyglot und spaCy, um deinen NLP-Werkzeugkasten zu erweitern.

Exercise 1: Named Entity Recognition Exercise 2: NER mit NLTK Exercise 3: Diagramm-Übung Exercise 4: Stanford-Bibliothek mit NLTK Exercise 5: Einführung in spaCy Exercise 6: NLTK mit spaCy-NER vergleichen Exercise 7: spaCy NER-Kategorien Exercise 8: Mehrsprachige NER mit polyglot Exercise 9: Französische NER mit polyglot I Exercise 10: Französische NER mit polyglot II Exercise 11: Spanische NER mit polyglot

Du wendest die Grundlagen, die du gelernt hast, zusammen mit überwachtem maschinellem Lernen an, um einen „Fake News“-Detektor zu bauen. Du startest mit den Grundlagen des überwachten Lernens und wählst anschließend einige wichtige Features aus, um Ideen zu testen und Fake-News-Artikel zu identifizieren und zu klassifizieren.

Exercise 1: Fake News mit überwachten Lernverfahren und NLP klassifizieren Exercise 2: Möglichen Merkmale Exercise 3: Trainieren und Testen Exercise 4: Wortzählvektoren mit scikit-learn erstellen Exercise 5: CountVectorizer für Textklassifizierung Exercise 6: TfidfVectorizer für Textklassifikation

Aktuelle Übung

Exercise 7: Vektoren analysieren Exercise 8: Ein Klassifikationsmodell mit scikit-learn trainieren und testen Exercise 9: Modelle zur Textklassifikation Exercise 10: Das „Fake News“-Modell mit CountVectorizer trainieren und testen Exercise 11: Training und Testen des „Fake News“-Modells mit TfidfVectorizer Exercise 12: Einfaches NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Dein Modell verbessern Exercise 15: Dein Modell untersuchen