TfidfVectorizer voor tekstclassificatie
Net als de sparse CountVectorizer die je in de vorige oefening hebt gemaakt, ga je tf-idf-vectoren voor je documenten opbouwen. Je zet een TfidfVectorizer op en bekijkt een paar van de eigenschappen.
In deze oefening gebruik je pandas en sklearn, samen met dezelfde X_train, y_train en X_test, y_test DataFrames en Series die je in de vorige oefening hebt gemaakt.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Importeer
TfidfVectorizeruitsklearn.feature_extraction.text. - Maak een
TfidfVectorizer-object met de naamtfidf_vectorizer. Geef daarbij de keyword-argumentenstop_words="english"enmax_df=0.7op. - Fit en transformeer de trainingsgegevens.
- Transformeer de testgegevens.
- Print de eerste 10 features van
tfidf_vectorizer. - Print de eerste 5 vectoren van de tf-idf-trainingsgegevens met slicing op het
.A(of array) attribuut vantfidf_train.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])