Vektoren analysieren
Um besser zu verstehen, wie die Vektoren funktionieren, untersuchst du sie, indem du sie in pandas-DataFrames umwandelst.
Hier verwendest du dieselben Datenstrukturen, die du in den vorherigen zwei Übungen erstellt hast (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) sowie pandas, das als pd importiert ist.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Anleitung zur Übung
- Erstelle die DataFrames
count_dfundtfidf_dfmitpd.DataFrame(), wobei du die Werte als erstes Argument und die Spalten (oder Features) als zweites Argument angibst.- Auf die Werte greifst du jeweils über das Attribut
.Avoncount_trainbzw.tfidf_trainzu. - Auf die Spalten kannst du mit den Methoden
.get_feature_names()voncount_vectorizerundtfidf_vectorizerzugreifen.
- Auf die Werte greifst du jeweils über das Attribut
- Gib die ersten Zeilen jedes DataFrames aus, um ihre Struktur zu untersuchen. Das haben wir bereits für dich erledigt.
- Prüfe, ob die Spaltennamen in beiden DataFrames gleich sind, indem du ein neues Objekt namens
differenceerstellst, um die Unterschiede zwischen den Spalten voncount_dfundtfidf_dfzu sehen. Auf Spalten greifst du mit dem Attribut.columnseines DataFrames zu. Subtrahiere die Menge vontfidf_df.columnsvon der Menge voncount_df.columns. - Prüfe, ob die beiden DataFrames gleich sind, indem du die Methode
.equals()aufcount_dfmittfidf_dfals Argument verwendest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)