Aan de slagGa gratis aan de slag

TfidfVectorizer voor tekstclassificatie

Net als de sparse CountVectorizer die je in de vorige oefening hebt gemaakt, ga je tf-idf-vectoren voor je documenten opbouwen. Je zet een TfidfVectorizer op en bekijkt een paar van de eigenschappen.

In deze oefening gebruik je pandas en sklearn, samen met dezelfde X_train, y_train en X_test, y_test DataFrames en Series die je in de vorige oefening hebt gemaakt.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Cursus bekijken

Oefeninstructies

  • Importeer TfidfVectorizer uit sklearn.feature_extraction.text.
  • Maak een TfidfVectorizer-object met de naam tfidf_vectorizer. Geef daarbij de keyword-argumenten stop_words="english" en max_df=0.7 op.
  • Fit en transformeer de trainingsgegevens.
  • Transformeer de testgegevens.
  • Print de eerste 10 features van tfidf_vectorizer.
  • Print de eerste 5 vectoren van de tf-idf-trainingsgegevens met slicing op het .A (of array) attribuut van tfidf_train.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Code bewerken en uitvoeren