Tfidf e BOW nos mesmos dados
Neste exercício, você vai transformar a coluna review do conjunto de dados de produtos da Amazon reviews usando tanto um bag-of-words quanto uma transformação tfidf.
Crie ambos os vetorizadores, especificando apenas que o número máximo de features deve ser igual a 100. Crie DataFrames após a transformação e imprima as 5 primeiras linhas de cada um.
Tenha cuidado ao definir o número máximo de features no vocabulário. Um vocabulário muito grande pode fazer com que sua sessão seja desconectada.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe os vetorizadores BOW e Tfidf.
- Construa e ajuste um vetorizador BOW e um Tfidf a partir da coluna
reviewe limite o número de features criadas a 100. - Crie DataFrames a partir das representações vetoriais transformadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required packages
____
# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____)
# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())