Inspection des vecteurs
Pour avoir une meilleure idée du fonctionnement des vecteurs, vous les étudierez en les convertissant en pandas
DataFrame.
Ici, vous utiliserez les mêmes structures de données que celles que vous avez créées dans les deux exercices précédents (count_train
, count_vectorizer
, tfidf_train
, tfidf_vectorizer
) ainsi que pandas
, qui est importé en tant que pd
.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
Créez les DataFrame
count_df
ettfidf_df
en utilisantpd.DataFrame()
et en spécifiant les valeurs comme premier argument et les colonnes (ou caractéristiques) comme deuxième argument.Les valeurs peuvent être consultées en utilisant l'attribut
.A
de, respectivement,count_train
ettfidf_train
.Les colonnes sont accessibles en utilisant les méthodes
.get_feature_names()
decount_vectorizer
ettfidf_vectorizer
.
Imprimez l'en-tête de chaque DataFrame pour étudier leur structure. Cela a été fait pour vous.
Testez si les noms de colonnes sont les mêmes pour chaque DataFrame en créant un nouvel objet appelé
difference
pour voir la différence entre les colonnes decount_df
et celles detfidf_df
. Les colonnes sont accessibles à l'aide de l'attribut.columns
d'un DataFrame. Soustrayez l'ensemble detfidf_df.columns
de l'ensemble decount_df.columns
.Testez si les deux DataFrame sont équivalents en utilisant la méthode
.equals()
surcount_df
avectfidf_df
comme argument.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)