IniziaInizia gratis

Vettori BoW per le recensioni di film

In questo esercizio ti vengono fornite due Series di pandas, X_train e X_test, che contengono recensioni di film. Rappresentano rispettivamente i dati di addestramento e di test. Il tuo compito è preprocessare le recensioni e generare i vettori BoW per questi due insiemi usando CountVectorizer.

Una volta generate le matrici di vettori BoW X_train_bow e X_test_bow, saremo in un'ottima posizione per applicare un modello di Machine Learning ed eseguire l'analisi del sentiment.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa CountVectorizer dalla libreria sklearn.
  • Istanzia un oggetto CountVectorizer chiamato vectorizer. Assicurati che tutte le parole vengano convertite in minuscolo e che le stopword english vengano rimosse.
  • Usando X_train, adatta (fit) vectorizer e poi usalo per trasformare X_train e generare l'insieme di vettori BoW X_train_bow.
  • Trasforma X_test usando vectorizer per generare l'insieme di vettori BoW X_test_bow.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create a CountVectorizer object
vectorizer = ____(lowercase=____, stop_words=____)

# Fit and transform X_train
X_train_bow = vectorizer.____(____)

# Transform X_test
X_test_bow = vectorizer.____(____)

# Print shape of X_train_bow and X_test_bow
print(X_train_bow.shape)
print(X_test_bow.shape)
Modifica ed esegui il codice