Inspecionar os vetores
Para ter uma ideia melhor de como os vetores funcionam, você os investigará convertendo-os em pandas
DataFrames.
Aqui, você usará as mesmas estruturas de dados que criou nos dois exercícios anteriores (count_train
, count_vectorizer
, tfidf_train
, tfidf_vectorizer
), bem como pandas
, que é importado como pd
.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções de exercício
Crie os DataFrames
count_df
etfidf_df
usandopd.DataFrame()
e especificando os valores como o primeiro argumento e as colunas (ou recursos) como o segundo argumento.Os valores podem ser acessados usando o atributo
.A
de, respectivamente,count_train
etfidf_train
.As colunas podem ser acessadas usando os métodos
.get_feature_names()
decount_vectorizer
etfidf_vectorizer
.
Imprima o cabeçalho de cada DataFrame para investigar sua estrutura. Isso foi feito para você.
Teste se os nomes das colunas são os mesmos para cada DataFrame criando um novo objeto chamado
difference
para ver a diferença entre as colunas quecount_df
tem etfidf_df
. As colunas podem ser acessadas usando o atributo.columns
de um DataFrame. Subtraia o conjunto detfidf_df.columns
do conjunto decount_df.columns
.Teste se os dois DataFrames são equivalentes usando o método
.equals()
emcount_df
comtfidf_df
como argumento.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)