Inspecionar os vetores

Para ter uma ideia melhor de como os vetores funcionam, você os investigará convertendo-os em pandas DataFrames.

Aqui, você usará as mesmas estruturas de dados que criou nos dois exercícios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), bem como pandas, que é importado como pd.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver Curso

Instruções de exercício

  • Crie os DataFrames count_df e tfidf_df usando pd.DataFrame() e especificando os valores como o primeiro argumento e as colunas (ou recursos) como o segundo argumento.

    • Os valores podem ser acessados usando o atributo .A de, respectivamente, count_train e tfidf_train.

    • As colunas podem ser acessadas usando os métodos .get_feature_names() de count_vectorizer e tfidf_vectorizer.

  • Imprima o cabeçalho de cada DataFrame para investigar sua estrutura. Isso foi feito para você.

  • Teste se os nomes das colunas são os mesmos para cada DataFrame criando um novo objeto chamado difference para ver a diferença entre as colunas que count_df tem e tfidf_df. As colunas podem ser acessadas usando o atributo .columns de um DataFrame. Subtraia o conjunto de tfidf_df.columns do conjunto de count_df.columns.

  • Teste se os dois DataFrames são equivalentes usando o método .equals() em count_df com tfidf_df como argumento.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)