IniziaInizia gratis

Un array di frequenze delle parole con tf-idf

In questo esercizio creerai un array di frequenze delle parole con tf-idf per una collezione di documenti di esempio. Per farlo, usa TfidfVectorizer da sklearn. Trasforma una lista di documenti in un array di frequenze delle parole, restituendolo come csr_matrix. Ha metodi fit() e transform() come altri oggetti di sklearn.

Ti viene fornita una lista documents di semplici documenti sui pet.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa TfidfVectorizer da sklearn.feature_extraction.text.
  • Crea un'istanza di TfidfVectorizer chiamata tfidf.
  • Applica il metodo .fit_transform() di tfidf a documents e assegna il risultato a csr_mat. Si tratta di un array di frequenze delle parole in formato csr_matrix.
  • Ispeziona csr_mat chiamando il suo metodo .toarray() e stampando il risultato. Questo è già stato fatto per te.
  • Le colonne dell'array corrispondono alle parole. Ottieni l'elenco delle parole chiamando il metodo .get_feature_names_out() di tfidf e assegna il risultato a words.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Modifica ed esegui il codice