Inspecionando os vetores
Para entender melhor como os vetores funcionam, você vai investigá-los convertendo-os em DataFrames do pandas.
Aqui, você usará as mesmas estruturas de dados que criou nos dois exercícios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), além do pandas, que foi importado como pd.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Instruções do exercício
- Crie os DataFrames
count_dfetfidf_dfusandopd.DataFrame(), especificando os valores como primeiro argumento e as colunas (ou features) como segundo argumento.- Os valores podem ser acessados pelo atributo
.Ade, respectivamente,count_trainetfidf_train. - As colunas podem ser acessadas pelos métodos
.get_feature_names()decount_vectorizeretfidf_vectorizer.
- Os valores podem ser acessados pelo atributo
- Imprima a head de cada DataFrame para investigar sua estrutura. Isso já foi feito para você.
- Teste se os nomes das colunas são os mesmos para cada DataFrame criando um novo objeto chamado
differencepara ver a diferença entre as colunas quecount_dftem em relação atfidf_df. As colunas podem ser acessadas pelo atributo.columnsde um DataFrame. Subtraia o conjunto detfidf_df.columnsdo conjunto decount_df.columns. - Teste se os dois DataFrames são equivalentes usando o método
.equals()emcount_df, comtfidf_dfcomo argumento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)