Dimensione del vocabolario delle recensioni di film

In questo esercizio metterai in pratica diversi modi per limitare la dimensione del vocabolario usando un campione dell'insieme di dati di recensioni movies. La prima colonna è review, di tipo object, e la seconda è label, che vale 0 per una recensione negativa e 1 per una positiva.

I tre metodi che userai trasformeranno la colonna di testo in nuove colonne numeriche, catturando il conteggio di una parola o di una frase in ciascuna recensione. Ogni metodo porterà a creare un numero diverso di nuove feature.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)

# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Modifica ed esegui il codice