Dimensione del vocabolario delle recensioni di film
In questo esercizio metterai in pratica diversi modi per limitare la dimensione del vocabolario usando un campione dell'insieme di dati di recensioni movies. La prima colonna è review, di tipo object, e la seconda è label, che vale 0 per una recensione negativa e 1 per una positiva.
I tre metodi che userai trasformeranno la colonna di testo in nuove colonne numeriche, catturando il conteggio di una parola o di una frase in ciascuna recensione. Ogni metodo porterà a creare un numero diverso di nuove feature.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())