De vectoren inspecteren
Om een beter beeld te krijgen van hoe de vectoren werken, ga je ze onderzoeken door ze om te zetten naar pandas DataFrames.
Hier gebruik je dezelfde datastructuren die je in de vorige twee oefeningen hebt gemaakt (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) en pandas, dat is geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Maak de DataFrames
count_dfentfidf_dfmetpd.DataFrame()en geef de waarden als eerste argument en de kolommen (of features) als tweede argument op.- Je kunt de waarden benaderen via het
.A-attribuut van respectievelijkcount_trainentfidf_train. - Je kunt de kolommen benaderen met de methoden
.get_feature_names()vancount_vectorizerentfidf_vectorizer.
- Je kunt de waarden benaderen via het
- Print de head van elk DataFrame om hun structuur te onderzoeken. Dit is al voor je gedaan.
- Test of de kolomnamen hetzelfde zijn voor elk DataFrame door een nieuw object
differencete maken om het verschil te zien tussen de kolommen diecount_dfheeft ten opzichte vantfidf_df. Kolommen kun je benaderen met het.columns-attribuut van een DataFrame. Trek de settfidf_df.columnsaf van de setcount_df.columns. - Test of de twee DataFrames gelijkwaardig zijn met de methode
.equals()opcount_dfmettfidf_dfals argument.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)