Prüfung der Vektoren
Um eine bessere Vorstellung davon zu bekommen, wie die Vektoren funktionieren, wirst du sie untersuchen, indem du sie in pandas
DataFrames umwandelst.
Hier verwendest du dieselben Datenstrukturen, die du in den beiden vorangegangenen Übungen erstellt hast (count_train
, count_vectorizer
, tfidf_train
, tfidf_vectorizer
), sowie pandas
, das als pd
importiert wird.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
Erstelle die DataFrames
count_df
undtfidf_df
, indem dupd.DataFrame()
verwendest und die Werte als erstes Argument und die Spalten (oder Merkmale) als zweites Argument angibst.Die Werte können über das Attribut
.A
voncount_train
bzw.tfidf_train
abgerufen werden.Auf die Spalten kann mit den
.get_feature_names()
Methoden voncount_vectorizer
undtfidf_vectorizer
zugegriffen werden.
Drucke den Kopf jedes DataFrame aus, um seine Struktur zu untersuchen. Das haben wir für dich getan.
Teste, ob die Spaltennamen für jeden DataFrame gleich sind, indem du ein neues Objekt namens
difference
erstellst, um den Unterschied zwischen den Spalten voncount_df
undtfidf_df
zu sehen. Auf Spalten kann über das Attribut.columns
eines DataFrame zugegriffen werden. Subtrahiere die Menge vontfidf_df.columns
von der Menge voncount_df.columns
.Teste, ob die beiden DataFrames gleichwertig sind, indem du die Methode
.equals()
aufcount_df
mittfidf_df
als Argument anwendest.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)