Comece agoraComece grátis

Tfidf e BOW nos mesmos dados

Neste exercício, você vai transformar a coluna review do conjunto de dados de produtos da Amazon reviews usando tanto um bag-of-words quanto uma transformação tfidf.

Crie ambos os vetorizadores, especificando apenas que o número máximo de features deve ser igual a 100. Crie DataFrames após a transformação e imprima as 5 primeiras linhas de cada um.

Tenha cuidado ao definir o número máximo de features no vocabulário. Um vocabulário muito grande pode fazer com que sua sessão seja desconectada.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

  • Importe os vetorizadores BOW e Tfidf.
  • Construa e ajuste um vetorizador BOW e um Tfidf a partir da coluna review e limite o número de features criadas a 100.
  • Crie DataFrames a partir das representações vetoriais transformadas.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Editar e Executar Código