Múltiplas colunas de texto
Neste exercício, você vai continuar trabalhando com os dados do Twitter das companhias aéreas. Um conjunto de dados tweets já foi importado para você.
Em algumas situações, você pode ter mais de uma coluna de texto em um conjunto de dados e pode querer criar uma representação numérica para cada uma dessas colunas. Aqui, além da coluna text, que contém o corpo do tweet, há uma segunda coluna de texto, chamada negativereason. Ela contém o motivo pelo qual o cliente deixou uma avaliação negativa.
Sua tarefa é construir representações BOW para ambas as colunas e especificar as stop words necessárias.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe o pacote de vetorização e a lista padrão de stop words em inglês.
- Atualize a lista padrão de stop words em inglês e crie o conjunto
my_stop_words. - Especifique o argumento de stop words no primeiro vetorizador para o conjunto atualizado e, no segundo vetorizador, para o conjunto padrão de stop words em inglês.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())