Matrixschaarsheid
Een veelvoorkomende uitdaging bij echte beoordelingsgegevens is dat de meeste gebruikers de meeste items niet hebben beoordeeld, en dat de meeste items slechts door een klein aantal gebruikers zijn beoordeeld. Dit resulteert in een heel lege of schaarse DataFrame.
In deze oefening bereken je hoe schaars de movie_lens-beoordelingsgegevens zijn door het aantal bezette cellen te tellen en dit te vergelijken met de grootte van de volledige DataFrame.
De DataFrame user_ratings_df die je in eerdere oefeningen hebt gebruikt, met een rij per gebruiker en een kolom per film, is voor je geladen.
Deze oefening maakt deel uit van de cursus
Aanbevelingssystemen bouwen in Python
Oefeninstructies
- Tel het aantal niet-lege cellen in
user_ratings_dfen sla het resultaat op alssparsity_count. - Tel het totale aantal cellen in de DataFrame
user_ratings_dfen sla dit op alsfull_count. - Bereken de schaarsheid van de DataFrame door het aantal niet-lege cellen te delen door het totale aantal cellen en print het resultaat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)