Schritt 2: Einen Vektorisierer bauen
In dieser Übung sollst du eine TfIDf-Transformation der Spalte review im Datensatz reviews erstellen. Du sollst die n-Gramme, die Stoppwörter, das Token-Muster und die Größe des Vokabulars angeben.
Das ist der letzte Schritt, bevor wir einen Klassifikator trainieren, der die Stimmung einer Rezension vorhersagt.
Achte darauf, die maximale Anzahl an Merkmalen korrekt zu setzen, da eine sehr große Vokabulargröße deine Sitzung trennen könnte.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere den Tfidf-Vektorisierer und die Standardliste englischer Stoppwörter.
- Baue den Tfidf-Vektorisierer und gib – in dieser Reihenfolge – folgende Argumente an: verwende als Stoppwörter die Standardliste englischer Stoppwörter; als n-Gramme Uni- und Bi-Gramme; die maximale Anzahl an Merkmalen soll 200 betragen; erfasse nur Wörter mit dem angegebenen Muster.
- Erstelle ein DataFrame mit dem Tfidf-Vektorisierer.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())