BOW mit Produktbewertungen

Du hast BOW an einem kleinen Datensatz geübt. Jetzt wendest du es auf eine Stichprobe von Amazon-Produktbewertungen an. Die Daten wurden bereits importiert und heißen reviews. Sie enthalten zwei Spalten. Die erste heißt score und ist 0, wenn die Bewertung negativ ist, und 1, wenn sie positiv ist. Die zweite Spalte heißt review und enthält den Text der Bewertung, den ein Kunde geschrieben hat. Du kannst die Daten gern in der IPython-Shell erkunden.

Deine Aufgabe ist es, ein BOW-Vokabular mit Hilfe der Spalte review zu erstellen.

Denk daran, dass wir die Methode .get_feature_names() auf dem Vektorisierer aufrufen können, um eine Liste aller Vokabularelemente zu erhalten.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle ein CountVectorizer-Objekt und gib die maximale Anzahl an Features an.
Fitte den Vektorisierer.
Transformiere mit dem gefitteten Vektorisierer.
Erstelle ein DataFrame, indem du die Sparse-Matrix in ein dichtes Array umwandelst, und achte darauf, die Spaltennamen korrekt anzugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())

Code bearbeiten und ausführen