Inspecionar os vetores
Para ter uma ideia melhor de como os vetores funcionam, você os investigará convertendo-os em pandas DataFrames.
Aqui, você usará as mesmas estruturas de dados que criou nos dois exercícios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), bem como pandas, que é importado como pd.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções do exercício
Crie os DataFrames
count_dfetfidf_dfusandopd.DataFrame()e especificando os valores como o primeiro argumento e as colunas (ou recursos) como o segundo argumento.Os valores podem ser acessados usando o atributo
.Ade, respectivamente,count_trainetfidf_train.As colunas podem ser acessadas usando os métodos
.get_feature_names()decount_vectorizeretfidf_vectorizer.
Imprima o cabeçalho de cada DataFrame para investigar sua estrutura. Isso foi feito para você.
Teste se os nomes das colunas são os mesmos para cada DataFrame criando um novo objeto chamado
differencepara ver a diferença entre as colunas quecount_dftem etfidf_df. As colunas podem ser acessadas usando o atributo.columnsde um DataFrame. Subtraia o conjunto detfidf_df.columnsdo conjunto decount_df.columns.Teste se os dois DataFrames são equivalentes usando o método
.equals()emcount_dfcomtfidf_dfcomo argumento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)