Applicare TF-IDF alle descrizioni dei libri

PyBooks ha raccolto diverse descrizioni di libri e vuole individuare le parole importanti al loro interno usando la tecnica di codifica TF-IDF. In questo modo spera di ottenere maggiori informazioni sugli attributi unici di ogni libro per migliorare il sistema di raccomandazione.

I seguenti pacchetti sono già stati importati per te: torch, torchtext.

Questo esercizio fa parte del corso

Deep Learning per il testo con PyTorch

Visualizza corso

Istruzioni dell'esercizio

Importa la classe TfidfVectorizer da sklearn.feature_extraction.text, che converte una raccolta di documenti grezzi in una matrice di caratteristiche TF-IDF.
Istanzia un oggetto di questa classe, quindi usa questo oggetto per codificare descriptions in una matrice di vettori TF-IDF.
Recupera e visualizza i primi cinque nomi delle feature dal vectorizer e i vettori codificati da tfidf_encoded_descriptions.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Importing TF-IDF from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TF-IDF encoding vectorizer
vectorizer = ____()
tfidf_encoded_descriptions = vectorizer.____(descriptions)

# Extract and print the first five features
print(____.get_feature_names_out()[:5])
print(____.toarray()[0, :5])

Modifica ed esegui il codice