BoW-vectoren voor filmrecensies
In deze oefening krijg je twee pandas Series, X_train en X_test, die bestaan uit filmrecensies. Ze vertegenwoordigen respectievelijk de trainings- en testrapportage. Jouw taak is om de recensies te preprocessen en BoW-vectoren te genereren voor deze twee sets met CountVectorizer.
Zodra we de BoW-vector-matrices X_train_bow en X_test_bow hebben gemaakt, kunnen we er heel goed een Machine Learning-model op toepassen en sentimentanalyse uitvoeren.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Importeer
CountVectorizeruit desklearn-bibliotheek. - Maak een
CountVectorizer-object met de naamvectorizer. Zorg dat alle woorden worden omgezet naar kleine letters en datenglishstopwoorden worden verwijderd. - Gebruik
X_trainomvectorizerte fitten en transformeer daarnaX_trainom de set BoW-vectorenX_train_bowte genereren. - Transformeer
X_testmetvectorizerom de set BoW-vectorenX_test_bowte genereren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)