Etapa 2: Construindo um vectorizer
Neste exercício, você vai criar uma transformação TfIDf da coluna review no conjunto de dados reviews. Você deve especificar os n-grams, as stop words, o padrão dos tokens e o tamanho do vocabulário como argumentos.
Esta é a última etapa antes de treinarmos um classificador para prever o sentimento de uma avaliação.
Garanta que você defina corretamente o número máximo de features, pois um vocabulário muito grande pode desconectar sua sessão.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe o Tfidf vectorizer e a lista padrão de stop words em inglês.
- Construa o Tfidf vectorizer especificando — nesta ordem — os seguintes argumentos: use como stop words a lista padrão de stop words em inglês; como n-grams use uni e bi-grams; o número máximo de features deve ser 200; capture apenas palavras usando o padrão especificado.
- Crie um DataFrame usando o Tfidf vectorizer.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())