Tamanho do vocabulário das resenhas de filmes

Neste exercício, você vai praticar diferentes maneiras de limitar o tamanho do vocabulário usando uma amostra do conjunto de dados de resenhas movies. A primeira coluna é review, do tipo object, e a segunda coluna é label, que é 0 para uma resenha negativa e 1 para uma positiva.

Os três métodos que você vai usar transformam a coluna de texto em novas colunas numéricas, registrando a contagem de uma palavra ou frase em cada resenha. Cada método resultará, ao final, em um número diferente de novas variáveis.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)

# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Editar e Executar Código