Applicare TF-IDF alle descrizioni dei libri
PyBooks ha raccolto diverse descrizioni di libri e vuole individuare le parole importanti al loro interno usando la tecnica di codifica TF-IDF. In questo modo spera di ottenere maggiori informazioni sugli attributi unici di ogni libro per migliorare il sistema di raccomandazione.
I seguenti pacchetti sono già stati importati per te: torch, torchtext.
Questo esercizio fa parte del corso
Deep Learning per il testo con PyTorch
Istruzioni dell'esercizio
- Importa la classe
TfidfVectorizerdasklearn.feature_extraction.text, che converte una raccolta di documenti grezzi in una matrice di caratteristiche TF-IDF. - Istanzia un oggetto di questa classe, quindi usa questo oggetto per codificare
descriptionsin una matrice di vettori TF-IDF. - Recupera e visualizza i primi cinque nomi delle feature dal
vectorizere i vettori codificati datfidf_encoded_descriptions.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)
# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])