Inspecter les vecteurs
Pour mieux comprendre le fonctionnement des vecteurs, vous allez les examiner en les convertissant en DataFrames pandas.
Ici, vous utiliserez les mêmes structures de données que dans les deux exercices précédents (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ainsi que pandas, importé sous le nom pd.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Créez les DataFrames
count_dfettfidf_dfen utilisantpd.DataFrame()et en spécifiant les valeurs comme premier argument et les colonnes (ou features) comme second argument.- Les valeurs sont accessibles via l’attribut
.Adecount_trainettfidf_train, respectivement. - Les colonnes sont accessibles via les méthodes
.get_feature_names()decount_vectorizerettfidf_vectorizer.
- Les valeurs sont accessibles via l’attribut
- Affichez la tête de chaque DataFrame pour examiner leur structure. Ceci a été fait pour vous.
- Testez si les noms de colonnes sont identiques pour chaque DataFrame en créant un nouvel objet appelé
differenceafin de voir la différence entre les colonnes quecount_dfpossède par rapport àtfidf_df. Les colonnes sont accessibles via l’attribut.columnsd’un DataFrame. Soustrayez l’ensembletfidf_df.columnsde l’ensemblecount_df.columns. - Testez si les deux DataFrames sont équivalents en utilisant la méthode
.equals()surcount_dfavectfidf_dfcomme argument.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)