Aan de slagGa gratis aan de slag

Een tf-idf-woordfrequentie-array

In deze oefening maak je een tf-idf-woordfrequentie-array voor een kleine verzameling documenten. Gebruik hiervoor de TfidfVectorizer uit sklearn. Deze zet een lijst met documenten om naar een woordfrequentie-array en geeft die terug als een csr_matrix. Net als andere sklearn-objecten heeft hij fit()- en transform()-methoden.

Je krijgt een lijst documents met eenvoudige documenten over huisdieren.

Deze oefening maakt deel uit van de cursus

Unsupervised Learning in Python

Cursus bekijken

Oefeninstructies

  • Importeer TfidfVectorizer uit sklearn.feature_extraction.text.
  • Maak een instantie van TfidfVectorizer met de naam tfidf.
  • Pas de methode .fit_transform() van tfidf toe op documents en wijs het resultaat toe aan csr_mat. Dit is een woordfrequentie-array in csr_matrix-formaat.
  • Inspecteer csr_mat door de methode .toarray() aan te roepen en het resultaat te printen. Dit is alvast voor je gedaan.
  • De kolommen van de array komen overeen met woorden. Haal de lijst met woorden op door de methode .get_feature_names_out() van tfidf aan te roepen en wijs het resultaat toe aan words.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Code bewerken en uitvoeren