CommencerCommencer gratuitement

Inspection des vecteurs

Pour avoir une meilleure idée du fonctionnement des vecteurs, vous les étudierez en les convertissant en pandas DataFrame.

Ici, vous utiliserez les mêmes structures de données que celles que vous avez créées dans les deux exercices précédents (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ainsi que pandas, qui est importé en tant que pd.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

  • Créez les DataFrame count_df et tfidf_df en utilisant pd.DataFrame() et en spécifiant les valeurs comme premier argument et les colonnes (ou caractéristiques) comme deuxième argument.

    • Les valeurs peuvent être consultées en utilisant l'attribut .A de, respectivement, count_train et tfidf_train.

    • Les colonnes sont accessibles en utilisant les méthodes .get_feature_names() de count_vectorizer et tfidf_vectorizer.

  • Imprimez l'en-tête de chaque DataFrame pour étudier leur structure. Cela a été fait pour vous.

  • Testez si les noms de colonnes sont les mêmes pour chaque DataFrame en créant un nouvel objet appelé difference pour voir la différence entre les colonnes de count_df et celles de tfidf_df. Les colonnes sont accessibles à l'aide de l'attribut .columns d'un DataFrame. Soustrayez l'ensemble de tfidf_df.columns de l'ensemble de count_df.columns.

  • Testez si les deux DataFrame sont équivalents en utilisant la méthode .equals() sur count_df avec tfidf_df comme argument.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Modifier et exécuter le code