Sentimento sobre companhias aéreas com stop words
Você recebeu um conjunto de dados chamado tweets, que contém avaliações de clientes e sentimentos sobre companhias aéreas. Ele tem duas colunas: airline_sentiment e text, em que o sentimento pode ser positivo, negativo ou neutro, e text é o texto do tweet.
Neste exercício, você vai criar uma representação BOW, levando em conta as stop words. Lembre-se de que stop words não são informativas e você pode querer removê-las. Isso resultará em um vocabulário menor e, consequentemente, menos features. Tenha em mente que podemos enriquecer uma lista padrão de stop words com outras específicas do nosso contexto.
Este exercicio faz parte do curso
Análise de Sentimentos em Python
Instruções do exercicio
- Importe a lista padrão de stop words em inglês.
- Atualize a lista padrão de stop words com a lista fornecida
['airline', 'airlines', '@']para criarmy_stop_words. - Especifique o argumento de stop words no vetorizador.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())