Inspection des vecteurs
Pour avoir une meilleure idée du fonctionnement des vecteurs, vous les étudierez en les convertissant en pandas DataFrame.
Ici, vous utiliserez les mêmes structures de données que celles que vous avez créées dans les deux exercices précédents (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ainsi que pandas, qui est importé en tant que pd.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
Créez les DataFrame
count_dfettfidf_dfen utilisantpd.DataFrame()et en spécifiant les valeurs comme premier argument et les colonnes (ou caractéristiques) comme deuxième argument.Les valeurs peuvent être consultées en utilisant l'attribut
.Ade, respectivement,count_trainettfidf_train.Les colonnes sont accessibles en utilisant les méthodes
.get_feature_names()decount_vectorizerettfidf_vectorizer.
Imprimez l'en-tête de chaque DataFrame pour étudier leur structure. Cela a été fait pour vous.
Testez si les noms de colonnes sont les mêmes pour chaque DataFrame en créant un nouvel objet appelé
differencepour voir la différence entre les colonnes decount_dfet celles detfidf_df. Les colonnes sont accessibles à l'aide de l'attribut.columnsd'un DataFrame. Soustrayez l'ensemble detfidf_df.columnsde l'ensemble decount_df.columns.Testez si les deux DataFrame sont équivalents en utilisant la méthode
.equals()surcount_dfavectfidf_dfcomme argument.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)