Sentimento sobre companhias aéreas com stop words
Você recebeu um conjunto de dados chamado tweets, que contém avaliações de clientes e sentimentos sobre companhias aéreas. Ele tem duas colunas: airline_sentiment e text, em que o sentimento pode ser positivo, negativo ou neutro, e text é o texto do tweet.
Neste exercício, você vai criar uma representação BOW, levando em conta as stop words. Lembre-se de que stop words não são informativas e você pode querer removê-las. Isso resultará em um vocabulário menor e, consequentemente, menos features. Tenha em mente que podemos enriquecer uma lista padrão de stop words com outras específicas do nosso contexto.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe a lista padrão de stop words em inglês.
- Atualize a lista padrão de stop words com a lista fornecida
['airline', 'airlines', '@']para criarmy_stop_words. - Especifique o argumento de stop words no vetorizador.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())