TfIdf em dados de sentimento de companhias aéreas no Twitter

Agora você vai criar atributos usando o método TfIdf. Vamos continuar trabalhando com o conjunto de dados tweets.

Neste exercício, você vai aplicar o que aprendeu nas lições anteriores: remover stop words, usar um padrão de tokens e especificar os n-grams.

A saída final será um DataFrame, cujas colunas são criadas usando TfidfVectorizer(). Esse DataFrame pode ser passado diretamente para um modelo de aprendizado supervisionado, que é o que vamos abordar no próximo capítulo.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercicio

Importe o pacote necessário para construir um TfidfVectorizer e o ENGLISH_STOP_WORDS.
Construa um vetorizador TfIdf a partir da coluna text do conjunto de dados tweets, especificando uni- e bi-grams como a opção de n-grams, tokens que incluam apenas caracteres alfanuméricos usando o padrão de token fornecido, e as stop words correspondentes a ENGLISH_STOP_WORDS.
Transforme o vetorizador, especificando a mesma coluna usada no ajuste (fit).
Especifique os nomes das colunas na função DataFrame().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Editar e Executar Código