Un array di frequenze delle parole con tf-idf
In questo esercizio creerai un array di frequenze delle parole con tf-idf per una collezione di documenti di esempio. Per farlo, usa TfidfVectorizer da sklearn. Trasforma una lista di documenti in un array di frequenze delle parole, restituendolo come csr_matrix. Ha metodi fit() e transform() come altri oggetti di sklearn.
Ti viene fornita una lista documents di semplici documenti sui pet.
Questo esercizio fa parte del corso
Apprendimento non supervisionato in Python
Istruzioni dell'esercizio
- Importa
TfidfVectorizerdasklearn.feature_extraction.text. - Crea un'istanza di
TfidfVectorizerchiamatatfidf. - Applica il metodo
.fit_transform()ditfidfadocumentse assegna il risultato acsr_mat. Si tratta di un array di frequenze delle parole in formato csr_matrix. - Ispeziona
csr_matchiamando il suo metodo.toarray()e stampando il risultato. Questo è già stato fatto per te. - Le colonne dell'array corrispondono alle parole. Ottieni l'elenco delle parole chiamando il metodo
.get_feature_names_out()ditfidfe assegna il risultato awords.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)