Tamanho do vocabulário das resenhas de filmes
Neste exercício, você vai praticar diferentes maneiras de limitar o tamanho do vocabulário usando uma amostra do conjunto de dados de resenhas movies. A primeira coluna é review, do tipo object, e a segunda coluna é label, que é 0 para uma resenha negativa e 1 para uma positiva.
Os três métodos que você vai usar transformam a coluna de texto em novas colunas numéricas, registrando a contagem de uma palavra ou frase em cada resenha. Cada método resultará, ao final, em um número diferente de novas variáveis.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())