Sentimento sobre companhias aéreas com stop words

Você recebeu um conjunto de dados chamado tweets, que contém avaliações de clientes e sentimentos sobre companhias aéreas. Ele tem duas colunas: airline_sentiment e text, em que o sentimento pode ser positivo, negativo ou neutro, e text é o texto do tweet.

Neste exercício, você vai criar uma representação BOW, levando em conta as stop words. Lembre-se de que stop words não são informativas e você pode querer removê-las. Isso resultará em um vocabulário menor e, consequentemente, menos features. Tenha em mente que podemos enriquecer uma lista padrão de stop words com outras específicas do nosso contexto.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Importe a lista padrão de stop words em inglês.
Atualize a lista padrão de stop words com a lista fornecida ['airline', 'airlines', '@'] para criar my_stop_words.
Especifique o argumento de stop words no vetorizador.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Editar e Executar Código