ComeçarComece de graça

Múltiplas colunas de texto

Neste exercício, você vai continuar trabalhando com os dados do Twitter das companhias aéreas. Um conjunto de dados tweets já foi importado para você.

Em algumas situações, você pode ter mais de uma coluna de texto em um conjunto de dados e pode querer criar uma representação numérica para cada uma dessas colunas. Aqui, além da coluna text, que contém o corpo do tweet, há uma segunda coluna de texto, chamada negativereason. Ela contém o motivo pelo qual o cliente deixou uma avaliação negativa.

Sua tarefa é construir representações BOW para ambas as colunas e especificar as stop words necessárias.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Importe o pacote de vetorização e a lista padrão de stop words em inglês.
  • Atualize a lista padrão de stop words em inglês e crie o conjunto my_stop_words.
  • Especifique o argumento de stop words no primeiro vetorizador para o conjunto atualizado e, no segundo vetorizador, para o conjunto padrão de stop words em inglês.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())
Editar e executar o código