ComeçarComece de graça

Inspecionando os vetores

Para entender melhor como os vetores funcionam, você vai investigá-los convertendo-os em DataFrames do pandas.

Aqui, você usará as mesmas estruturas de dados que criou nos dois exercícios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), além do pandas, que foi importado como pd.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercício

  • Crie os DataFrames count_df e tfidf_df usando pd.DataFrame(), especificando os valores como primeiro argumento e as colunas (ou features) como segundo argumento.
    • Os valores podem ser acessados pelo atributo .A de, respectivamente, count_train e tfidf_train.
    • As colunas podem ser acessadas pelos métodos .get_feature_names() de count_vectorizer e tfidf_vectorizer.
  • Imprima a head de cada DataFrame para investigar sua estrutura. Isso já foi feito para você.
  • Teste se os nomes das colunas são os mesmos para cada DataFrame criando um novo objeto chamado difference para ver a diferença entre as colunas que count_df tem em relação a tfidf_df. As colunas podem ser acessadas pelo atributo .columns de um DataFrame. Subtraia o conjunto de tfidf_df.columns do conjunto de count_df.columns.
  • Teste se os dois DataFrames são equivalentes usando o método .equals() em count_df, com tfidf_df como argumento.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Editar e executar o código