ComeçarComece de graça

Etapa 2: Construindo um vectorizer

Neste exercício, você vai criar uma transformação TfIDf da coluna review no conjunto de dados reviews. Você deve especificar os n-grams, as stop words, o padrão dos tokens e o tamanho do vocabulário como argumentos.

Esta é a última etapa antes de treinarmos um classificador para prever o sentimento de uma avaliação.

Garanta que você defina corretamente o número máximo de features, pois um vocabulário muito grande pode desconectar sua sessão.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Importe o Tfidf vectorizer e a lista padrão de stop words em inglês.
  • Construa o Tfidf vectorizer especificando — nesta ordem — os seguintes argumentos: use como stop words a lista padrão de stop words em inglês; como n-grams use uni e bi-grams; o número máximo de features deve ser 200; capture apenas palavras usando o padrão especificado.
  • Crie um DataFrame usando o Tfidf vectorizer.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())
Editar e executar o código