Che cos'è il tf-idf?
Vuoi calcolare il peso tf-idf per la parola "computer", che compare cinque volte in un documento di 100 parole. Dato un corpus di 200 documenti, con 20 documenti che menzionano la parola "computer", il tf-idf si calcola moltiplicando la frequenza del termine per l'inverso della frequenza del documento.
Frequenza del termine = percentuale della parola rispetto a tutti i token nel documento Inverso della frequenza del documento = logaritmo del numero totale di documenti in un corpus diviso per il numero di documenti che contengono il termine
Quale delle opzioni sotto è corretta?
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio