LoslegenKostenlos loslegen

Tfidf und BOW auf denselben Daten

In dieser Übung transformierst du die Spalte review der Amazon-Produkt-reviews sowohl mit einem Bag-of-Words als auch mit einer Tfidf-Transformation.

Erstelle beide Vektorisierer und gib nur an, dass die maximale Anzahl an Features 100 betragen soll. Erzeuge nach der Transformation DataFrames und gib die obersten 5 Zeilen jedes DataFrames aus.

Achte darauf, wie du die maximale Anzahl an Features im Vokabular angibst. Eine große Vokabulargröße kann dazu führen, dass deine Sitzung getrennt wird.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die BOW- und Tfidf-Vektorisierer.
  • Erstelle und fitte einen BOW- und einen Tfidf-Vektorisierer aus der Spalte review und begrenze die Anzahl der erzeugten Features auf 100.
  • Erzeuge DataFrames aus den transformierten Vektorrepräsentationen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Code bearbeiten und ausführen