LoslegenKostenlos loslegen

BOW mit Produktbewertungen

Du hast BOW an einem kleinen Datensatz geübt. Jetzt wendest du es auf eine Stichprobe von Amazon-Produktbewertungen an. Die Daten wurden bereits importiert und heißen reviews. Sie enthalten zwei Spalten. Die erste heißt score und ist 0, wenn die Bewertung negativ ist, und 1, wenn sie positiv ist. Die zweite Spalte heißt review und enthält den Text der Bewertung, den ein Kunde geschrieben hat. Du kannst die Daten gern in der IPython-Shell erkunden.

Deine Aufgabe ist es, ein BOW-Vokabular mit Hilfe der Spalte review zu erstellen.

Denk daran, dass wir die Methode .get_feature_names() auf dem Vektorisierer aufrufen können, um eine Liste aller Vokabularelemente zu erhalten.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein CountVectorizer-Objekt und gib die maximale Anzahl an Features an.
  • Fitte den Vektorisierer.
  • Transformiere mit dem gefitteten Vektorisierer.
  • Erstelle ein DataFrame, indem du die Sparse-Matrix in ein dichtes Array umwandelst, und achte darauf, die Spaltennamen korrekt anzugeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())
Code bearbeiten und ausführen