ComeçarComece de graça

TfIdf em dados de sentimento de companhias aéreas no Twitter

Agora você vai criar atributos usando o método TfIdf. Vamos continuar trabalhando com o conjunto de dados tweets.

Neste exercício, você vai aplicar o que aprendeu nas lições anteriores: remover stop words, usar um padrão de tokens e especificar os n-grams.

A saída final será um DataFrame, cujas colunas são criadas usando TfidfVectorizer(). Esse DataFrame pode ser passado diretamente para um modelo de aprendizado supervisionado, que é o que vamos abordar no próximo capítulo.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Importe o pacote necessário para construir um TfidfVectorizer e o ENGLISH_STOP_WORDS.
  • Construa um vetorizador TfIdf a partir da coluna text do conjunto de dados tweets, especificando uni- e bi-grams como a opção de n-grams, tokens que incluam apenas caracteres alfanuméricos usando o padrão de token fornecido, e as stop words correspondentes a ENGLISH_STOP_WORDS.
  • Transforme o vetorizador, especificando a mesma coluna usada no ajuste (fit).
  • Especifique os nomes das colunas na função DataFrame().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())
Editar e executar o código