Prüfung der Vektoren

Um eine bessere Vorstellung davon zu bekommen, wie die Vektoren funktionieren, wirst du sie untersuchen, indem du sie in pandas DataFrames umwandelst.

Hier verwendest du dieselben Datenstrukturen, die du in den beiden vorangegangenen Übungen erstellt hast (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), sowie pandas, das als pd importiert wird.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle die DataFrames count_df und tfidf_df, indem du pd.DataFrame() verwendest und die Werte als erstes Argument und die Spalten (oder Merkmale) als zweites Argument angibst.

    • Die Werte können über das Attribut .A von count_train bzw. tfidf_train abgerufen werden.

    • Auf die Spalten kann mit den .get_feature_names() Methoden von count_vectorizer und tfidf_vectorizer zugegriffen werden.

  • Drucke den Kopf jedes DataFrame aus, um seine Struktur zu untersuchen. Das haben wir für dich getan.

  • Teste, ob die Spaltennamen für jeden DataFrame gleich sind, indem du ein neues Objekt namens difference erstellst, um den Unterschied zwischen den Spalten von count_df und tfidf_df zu sehen. Auf Spalten kann über das Attribut .columns eines DataFrame zugegriffen werden. Subtrahiere die Menge von tfidf_df.columns von der Menge von count_df.columns.

  • Teste, ob die beiden DataFrames gleichwertig sind, indem du die Methode .equals() auf count_df mit tfidf_df als Argument anwendest.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)