Prüfung der Vektoren
Um eine bessere Vorstellung davon zu bekommen, wie die Vektoren funktionieren, wirst du sie untersuchen, indem du sie in pandas DataFrames umwandelst.
Hier verwendest du dieselben Datenstrukturen, die du in den beiden vorangegangenen Übungen erstellt hast (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), sowie pandas, das als pd importiert wird.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
Erstelle die DataFrames
count_dfundtfidf_df, indem dupd.DataFrame()verwendest und die Werte als erstes Argument und die Spalten (oder Merkmale) als zweites Argument angibst.Die Werte können über das Attribut
.Avoncount_trainbzw.tfidf_trainabgerufen werden.Auf die Spalten kann mit den
.get_feature_names()Methoden voncount_vectorizerundtfidf_vectorizerzugegriffen werden.
Drucke den Kopf jedes DataFrame aus, um seine Struktur zu untersuchen. Das haben wir für dich getan.
Teste, ob die Spaltennamen für jeden DataFrame gleich sind, indem du ein neues Objekt namens
differenceerstellst, um den Unterschied zwischen den Spalten voncount_dfundtfidf_dfzu sehen. Auf Spalten kann über das Attribut.columnseines DataFrame zugegriffen werden. Subtrahiere die Menge vontfidf_df.columnsvon der Menge voncount_df.columns.Teste, ob die beiden DataFrames gleichwertig sind, indem du die Methode
.equals()aufcount_dfmittfidf_dfals Argument anwendest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)