Tfidf en een BOW op dezelfde data

In deze oefening transformeer je de kolom review van de Amazon-product-reviews met zowel een bag-of-words als een tfidf-transformatie.

Bouw beide vectorizers en specificeer alleen dat het maximale aantal features gelijk is aan 100. Maak na de transformatie DataFrames en print de eerste 5 rijen van elk.

Let goed op hoe je het maximale aantal features in het vocabulaire opgeeft. Een grote vocabulairegrootte kan ertoe leiden dat je sessie wordt verbroken.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer de BOW- en Tfidf-vectorizers.
Bouw en fit een BOW- en een Tfidf-vectorizer op de review-kolom en beperk het aantal aangemaakte features tot 100.
Maak DataFrames van de getransformeerde vectorrepresentaties.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())

Code bewerken en uitvoeren