Vettori BoW per le recensioni di film
In questo esercizio ti vengono fornite due Series di pandas, X_train e X_test, che contengono recensioni di film. Rappresentano rispettivamente i dati di addestramento e di test. Il tuo compito è preprocessare le recensioni e generare i vettori BoW per questi due insiemi usando CountVectorizer.
Una volta generate le matrici di vettori BoW X_train_bow e X_test_bow, saremo in un'ottima posizione per applicare un modello di Machine Learning ed eseguire l'analisi del sentiment.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Importa
CountVectorizerdalla libreriasklearn. - Istanzia un oggetto
CountVectorizerchiamatovectorizer. Assicurati che tutte le parole vengano convertite in minuscolo e che le stopwordenglishvengano rimosse. - Usando
X_train, adatta (fit)vectorizere poi usalo per trasformareX_traine generare l'insieme di vettori BoWX_train_bow. - Trasforma
X_testusandovectorizerper generare l'insieme di vettori BoWX_test_bow.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import CountVectorizer
from sklearn.feature_extraction.text import ____
# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)
# Fit and transform X_train
X_train_bow = vectorizer.____(____)
# Transform X_test
X_test_bow = vectorizer.____(____)
# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)