LoslegenKostenlos loslegen

Vektoren analysieren

Um besser zu verstehen, wie die Vektoren funktionieren, untersuchst du sie, indem du sie in pandas-DataFrames umwandelst.

Hier verwendest du dieselben Datenstrukturen, die du in den vorherigen zwei Übungen erstellt hast (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) sowie pandas, das als pd importiert ist.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle die DataFrames count_df und tfidf_df mit pd.DataFrame(), wobei du die Werte als erstes Argument und die Spalten (oder Features) als zweites Argument angibst.
    • Auf die Werte greifst du jeweils über das Attribut .A von count_train bzw. tfidf_train zu.
    • Auf die Spalten kannst du mit den Methoden .get_feature_names() von count_vectorizer und tfidf_vectorizer zugreifen.
  • Gib die ersten Zeilen jedes DataFrames aus, um ihre Struktur zu untersuchen. Das haben wir bereits für dich erledigt.
  • Prüfe, ob die Spaltennamen in beiden DataFrames gleich sind, indem du ein neues Objekt namens difference erstellst, um die Unterschiede zwischen den Spalten von count_df und tfidf_df zu sehen. Auf Spalten greifst du mit dem Attribut .columns eines DataFrames zu. Subtrahiere die Menge von tfidf_df.columns von der Menge von count_df.columns.
  • Prüfe, ob die beiden DataFrames gleich sind, indem du die Methode .equals() auf count_df mit tfidf_df als Argument verwendest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Code bearbeiten und ausführen