Tamaño del vocabulario de las reseñas de películas
En este ejercicio, practicarás distintas formas de limitar el tamaño del vocabulario usando una muestra del conjunto de datos de reseñas movies. La primera columna es review, de tipo object, y la segunda es label, que vale 0 para una reseña negativa y 1 para una positiva.
Los tres métodos que usarás transformarán la columna de texto en nuevas columnas numéricas, registrando el recuento de una palabra o una frase en cada reseña. Cada método dará lugar a un número diferente de nuevas características.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())