TfIdf em dados de sentimento de companhias aéreas no Twitter
Agora você vai criar atributos usando o método TfIdf. Vamos continuar trabalhando com o conjunto de dados tweets.
Neste exercício, você vai aplicar o que aprendeu nas lições anteriores: remover stop words, usar um padrão de tokens e especificar os n-grams.
A saída final será um DataFrame, cujas colunas são criadas usando TfidfVectorizer(). Esse DataFrame pode ser passado diretamente para um modelo de aprendizado supervisionado, que é o que vamos abordar no próximo capítulo.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe o pacote necessário para construir um TfidfVectorizer e o
ENGLISH_STOP_WORDS. - Construa um vetorizador TfIdf a partir da coluna
textdo conjunto de dadostweets, especificando uni- e bi-grams como a opção de n-grams, tokens que incluam apenas caracteres alfanuméricos usando o padrão de token fornecido, e as stop words correspondentes aENGLISH_STOP_WORDS. - Transforme o vetorizador, especificando a mesma coluna usada no ajuste (fit).
- Especifique os nomes das colunas na função
DataFrame().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())