Tfidf en een BOW op dezelfde data
In deze oefening transformeer je de kolom review van de Amazon-product-reviews met zowel een bag-of-words als een tfidf-transformatie.
Bouw beide vectorizers en specificeer alleen dat het maximale aantal features gelijk is aan 100. Maak na de transformatie DataFrames en print de eerste 5 rijen van elk.
Let goed op hoe je het maximale aantal features in het vocabulaire opgeeft. Een grote vocabulairegrootte kan ertoe leiden dat je sessie wordt verbroken.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de BOW- en Tfidf-vectorizers.
- Bouw en fit een BOW- en een Tfidf-vectorizer op de
review-kolom en beperk het aantal aangemaakte features tot 100. - Maak DataFrames van de getransformeerde vectorrepresentaties.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())