Tfidf und BOW auf denselben Daten
In dieser Übung transformierst du die Spalte review der Amazon-Produkt-reviews sowohl mit einem Bag-of-Words als auch mit einer Tfidf-Transformation.
Erstelle beide Vektorisierer und gib nur an, dass die maximale Anzahl an Features 100 betragen soll. Erzeuge nach der Transformation DataFrames und gib die obersten 5 Zeilen jedes DataFrames aus.
Achte darauf, wie du die maximale Anzahl an Features im Vokabular angibst. Eine große Vokabulargröße kann dazu führen, dass deine Sitzung getrennt wird.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere die BOW- und Tfidf-Vektorisierer.
- Erstelle und fitte einen BOW- und einen Tfidf-Vektorisierer aus der Spalte
reviewund begrenze die Anzahl der erzeugten Features auf 100. - Erzeuge DataFrames aus den transformierten Vektorrepräsentationen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())