Schritt 2: Einen Vektorisierer bauen

In dieser Übung sollst du eine TfIDf-Transformation der Spalte review im Datensatz reviews erstellen. Du sollst die n-Gramme, die Stoppwörter, das Token-Muster und die Größe des Vokabulars angeben.

Das ist der letzte Schritt, bevor wir einen Klassifikator trainieren, der die Stimmung einer Rezension vorhersagt.

Achte darauf, die maximale Anzahl an Merkmalen korrekt zu setzen, da eine sehr große Vokabulargröße deine Sitzung trennen könnte.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere den Tfidf-Vektorisierer und die Standardliste englischer Stoppwörter.
Baue den Tfidf-Vektorisierer und gib – in dieser Reihenfolge – folgende Argumente an: verwende als Stoppwörter die Standardliste englischer Stoppwörter; als n-Gramme Uni- und Bi-Gramme; die maximale Anzahl an Merkmalen soll 200 betragen; erfasse nur Wörter mit dem angegebenen Muster.
Erstelle ein DataFrame mit dem Tfidf-Vektorisierer.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())

Code bearbeiten und ausführen