TfidfVectorizer voor tekstclassificatie

Net als de sparse CountVectorizer die je in de vorige oefening hebt gemaakt, ga je tf-idf-vectoren voor je documenten opbouwen. Je zet een TfidfVectorizer op en bekijkt een paar van de eigenschappen.

In deze oefening gebruik je pandas en sklearn, samen met dezelfde X_train, y_train en X_test, y_test DataFrames en Series die je in de vorige oefening hebt gemaakt.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Oefeninstructies

Importeer TfidfVectorizer uit sklearn.feature_extraction.text.
Maak een TfidfVectorizer-object met de naam tfidf_vectorizer. Geef daarbij de keyword-argumenten stop_words="english" en max_df=0.7 op.
Fit en transformeer de trainingsgegevens.
Transformeer de testgegevens.
Print de eerste 10 features van tfidf_vectorizer.
Print de eerste 5 vectoren van de tf-idf-trainingsgegevens met slicing op het .A (of array) attribuut van tfidf_train.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Code bewerken en uitvoeren