BoW-vectoren voor filmrecensies

In deze oefening krijg je twee pandas Series, X_train en X_test, die bestaan uit filmrecensies. Ze vertegenwoordigen respectievelijk de trainings- en testrapportage. Jouw taak is om de recensies te preprocessen en BoW-vectoren te genereren voor deze twee sets met CountVectorizer.

Zodra we de BoW-vector-matrices X_train_bow en X_test_bow hebben gemaakt, kunnen we er heel goed een Machine Learning-model op toepassen en sentimentanalyse uitvoeren.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Importeer CountVectorizer uit de sklearn-bibliotheek.
Maak een CountVectorizer-object met de naam vectorizer. Zorg dat alle woorden worden omgezet naar kleine letters en dat english stopwoorden worden verwijderd.
Gebruik X_train om vectorizer te fitten en transformeer daarna X_train om de set BoW-vectoren X_train_bow te genereren.
Transformeer X_test met vectorizer om de set BoW-vectoren X_test_bow te genereren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)

Code bewerken en uitvoeren