CommencerCommencer gratuitement

Inspecter les vecteurs

Pour mieux comprendre le fonctionnement des vecteurs, vous allez les examiner en les convertissant en DataFrames pandas.

Ici, vous utiliserez les mêmes structures de données que dans les deux exercices précédents (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) ainsi que pandas, importé sous le nom pd.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Instructions

  • Créez les DataFrames count_df et tfidf_df en utilisant pd.DataFrame() et en spécifiant les valeurs comme premier argument et les colonnes (ou features) comme second argument.
    • Les valeurs sont accessibles via l’attribut .A de count_train et tfidf_train, respectivement.
    • Les colonnes sont accessibles via les méthodes .get_feature_names() de count_vectorizer et tfidf_vectorizer.
  • Affichez la tête de chaque DataFrame pour examiner leur structure. Ceci a été fait pour vous.
  • Testez si les noms de colonnes sont identiques pour chaque DataFrame en créant un nouvel objet appelé difference afin de voir la différence entre les colonnes que count_df possède par rapport à tfidf_df. Les colonnes sont accessibles via l’attribut .columns d’un DataFrame. Soustrayez l’ensemble tfidf_df.columns de l’ensemble count_df.columns.
  • Testez si les deux DataFrames sont équivalents en utilisant la méthode .equals() sur count_df avec tfidf_df comme argument.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Modifier et exécuter le code