Sparsità della matrice
Una sfida comune con i dati di valutazione reali è che la maggior parte degli utenti non avrà valutato la maggior parte degli elementi, e la maggior parte degli elementi sarà stata valutata solo da un piccolo numero di utenti. Questo produce un DataFrame molto vuoto, cioè sparso.
In questo esercizio calcolerai quanto è sparso il dataset di valutazioni movie_lens contando il numero di celle occupate e confrontandolo con la dimensione dell’intero DataFrame.
Il DataFrame user_ratings_df che hai usato negli esercizi precedenti, contenente una riga per utente e una colonna per film, è già stato caricato per te.
Questo esercizio fa parte del corso
Creare motori di raccomandazione in Python
Istruzioni dell'esercizio
- Conta il numero di celle non vuote in
user_ratings_dfe salva il risultato comesparsity_count. - Conta il numero totale di celle nel DataFrame
user_ratings_dfe salvalo comefull_count. - Calcola la sparsità del DataFrame dividendo il numero di celle non vuote per il numero totale di celle e stampa il risultato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)