Matrixschaarsheid

Een veelvoorkomende uitdaging bij echte beoordelingsgegevens is dat de meeste gebruikers de meeste items niet hebben beoordeeld, en dat de meeste items slechts door een klein aantal gebruikers zijn beoordeeld. Dit resulteert in een heel lege of schaarse DataFrame.

In deze oefening bereken je hoe schaars de movie_lens-beoordelingsgegevens zijn door het aantal bezette cellen te tellen en dit te vergelijken met de grootte van de volledige DataFrame. De DataFrame user_ratings_df die je in eerdere oefeningen hebt gebruikt, met een rij per gebruiker en een kolom per film, is voor je geladen.

Deze oefening maakt deel uit van de cursus

Aanbevelingssystemen bouwen in Python

Bekijk cursus

Oefeninstructies

Tel het aantal niet-lege cellen in user_ratings_df en sla het resultaat op als sparsity_count.
Tel het totale aantal cellen in de DataFrame user_ratings_df en sla dit op als full_count.
Bereken de schaarsheid van de DataFrame door het aantal niet-lege cellen te delen door het totale aantal cellen en print het resultaat.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()

# Count all cells
full_count = user_ratings_df.____

# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)

Code bewerken en uitvoeren