Aan de slagGa gratis aan de slag

De vectoren inspecteren

Om een beter beeld te krijgen van hoe de vectoren werken, ga je ze onderzoeken door ze om te zetten naar pandas DataFrames.

Hier gebruik je dezelfde datastructuren die je in de vorige twee oefeningen hebt gemaakt (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) en pandas, dat is geïmporteerd als pd.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Cursus bekijken

Oefeninstructies

  • Maak de DataFrames count_df en tfidf_df met pd.DataFrame() en geef de waarden als eerste argument en de kolommen (of features) als tweede argument op.
    • Je kunt de waarden benaderen via het .A-attribuut van respectievelijk count_train en tfidf_train.
    • Je kunt de kolommen benaderen met de methoden .get_feature_names() van count_vectorizer en tfidf_vectorizer.
  • Print de head van elk DataFrame om hun structuur te onderzoeken. Dit is al voor je gedaan.
  • Test of de kolomnamen hetzelfde zijn voor elk DataFrame door een nieuw object difference te maken om het verschil te zien tussen de kolommen die count_df heeft ten opzichte van tfidf_df. Kolommen kun je benaderen met het .columns-attribuut van een DataFrame. Trek de set tfidf_df.columns af van de set count_df.columns.
  • Test of de twee DataFrames gelijkwaardig zijn met de methode .equals() op count_df met tfidf_df als argument.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Code bewerken en uitvoeren