CountVectorizer für Textklassifizierung

Es ist nun an der Zeit, deinen eigenen Textklassifizierer zu bauen! Die Daten wurden in einen DataFrame namens df geladen. Erkunde den DataFrame in der IPython-Konsole, um zu sehen, welche Spalten du verwenden kannst. Die Methode .head() ist dabei besonders hilfreich.

In dieser Übung verwendest du pandas zusammen mit scikit-learn, um einen einfachen Text-Vektorisierer zu erstellen, mit dem du ein einfaches überwachtes Modell trainieren und testen kannst. Zunächst richtest du einen CountVectorizer ein und untersuchst einige seiner Funktionen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Übungsanweisungen

Importiere CountVectorizer aus sklearn.feature_extraction.text und train_test_split aus sklearn.model_selection.
Erstelle eine Series y für die Labels, indem du das Attribut .label von df y zuweist.
Erstelle mit df["text"] (Features) und y (Labels) Trainings- und Testdatensätze mittels train_test_split(). Setze test_size auf 0.33 und random_state auf 53.
Erstelle ein CountVectorizer-Objekt namens count_vectorizer. Gib unbedingt das Schlüsselwortargument stop_words="english" an, damit Stoppwörter entfernt werden.
Fitte und transformiere die Trainingsdaten X_train mit der Methode .fit_transform() deines CountVectorizer-Objekts. Mache dasselbe mit den Testdaten X_test, jedoch mit der Methode .transform().
Gib die ersten zehn Merkmale von count_vectorizer mit der Methode .get_feature_names() aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende NLP-Konzepte kennen, etwa Wort-Tokenisierung und reguläre Ausdrücke, um Text zu parsen. Du lernst auch, wie du nichtenglischen Text verarbeitest und schwierigere Tokenisierungsfälle meisterst, auf die du stoßen könntest.

Exercise 1: Einführung in reguläre Ausdrücke Exercise 2: Welches Muster?Exercise 3: Reguläre Ausdrücke: re.split() und re.findall()Exercise 4: Einstieg in die Tokenisierung Exercise 5: Worttokenisierung mit NLTK Exercise 6: Regex mit re.search()Exercise 7: Erweiterte Tokenisierung mit NLTK und Regex Exercise 8: Einen Tokenizer auswählen Exercise 9: Regex mit NLTK-Tokenisierung Exercise 10: Nicht-ASCII-Tokenisierung Exercise 11: Wortlängen mit NLTK visualisieren Exercise 12: Diagramm-Übung

Dieses Kapitel führt dich in die Themenidentifikation ein, die du auf beliebige Texte in freier Wildbahn anwenden kannst. Mit einfachen NLP-Modellen identifizierst du Themen anhand von Termhäufigkeiten. Du experimentierst mit zwei einfachen Methoden und vergleichst sie: Bag-of-Words und Tf-idf mit NLTK sowie der neuen Bibliothek Gensim.

Exercise 1: Wortzählung mit Bag-of-Words Exercise 2: Bag-of-Words verstanden?Exercise 3: Einen Counter mit Bag-of-Words erstellen Exercise 4: Einfache Textvorverarbeitung Exercise 5: Schritte der Textvorverarbeitung Exercise 6: Übung zur Textvorverarbeitung Exercise 7: Einführung in gensim Exercise 8: Was sind Wortvektoren?Exercise 9: Ein Korpus mit gensim erstellen und abfragen Exercise 10: Gensim Bag-of-Words Exercise 11: Tf-idf mit gensim Exercise 12: Was ist tf-idf?Exercise 13: Tf-idf mit Wikipedia

Dieses Kapitel führt ein etwas fortgeschritteneres Thema ein: die Erkennung benannter Entitäten. Du lernst, das Wer, Was und Wo deiner Texte zu identifizieren – mithilfe vortrainierter Modelle für englische und nichtenglische Texte. Außerdem lernst du neue Bibliotheken kennen, polyglot und spaCy, um deinen NLP-Werkzeugkasten zu erweitern.

Exercise 1: Named Entity Recognition Exercise 2: NER mit NLTK Exercise 3: Diagramm-Übung Exercise 4: Stanford-Bibliothek mit NLTK Exercise 5: Einführung in spaCy Exercise 6: NLTK mit spaCy-NER vergleichen Exercise 7: spaCy NER-Kategorien Exercise 8: Mehrsprachige NER mit polyglot Exercise 9: Französische NER mit polyglot I Exercise 10: Französische NER mit polyglot II Exercise 11: Spanische NER mit polyglot

Du wendest die Grundlagen, die du gelernt hast, zusammen mit überwachtem maschinellem Lernen an, um einen „Fake News“-Detektor zu bauen. Du startest mit den Grundlagen des überwachten Lernens und wählst anschließend einige wichtige Features aus, um Ideen zu testen und Fake-News-Artikel zu identifizieren und zu klassifizieren.

Exercise 1: Fake News mit überwachten Lernverfahren und NLP klassifizieren Exercise 2: Möglichen Merkmale Exercise 3: Trainieren und Testen Exercise 4: Wortzählvektoren mit scikit-learn erstellen Exercise 5: CountVectorizer für Textklassifizierung

Aktuelle Übung

Exercise 6: TfidfVectorizer für Textklassifikation Exercise 7: Vektoren analysieren Exercise 8: Ein Klassifikationsmodell mit scikit-learn trainieren und testen Exercise 9: Modelle zur Textklassifikation Exercise 10: Das „Fake News“-Modell mit CountVectorizer trainieren und testen Exercise 11: Training und Testen des „Fake News“-Modells mit TfidfVectorizer Exercise 12: Einfaches NLP, komplexe Probleme Exercise 13: Das Modell verbessern Exercise 14: Dein Modell verbessern Exercise 15: Dein Modell untersuchen