Esparsidade de matriz
Um desafio comum com dados de avaliações do mundo real é que a maioria dos usuários não terá avaliado a maioria dos itens, e a maioria dos itens terá sido avaliada por apenas um pequeno número de usuários. Isso resulta em um DataFrame muito vazio ou esparso.
Neste exercício, você vai calcular quão esparsos são os dados de avaliações do movie_lens, contando o número de células ocupadas e comparando-o ao tamanho do DataFrame completo.
O DataFrame user_ratings_df que você usou em exercícios anteriores, contendo uma linha por usuário e uma coluna por filme, já foi carregado para você.
Este exercício faz parte do curso
Construindo mecanismos de recomendação em Python
Instruções do exercício
- Conte o número de células não vazias em
user_ratings_dfe armazene o resultado emsparsity_count. - Conte o número total de células no DataFrame
user_ratings_dfe armazene-o emfull_count. - Calcule a esparsidade do DataFrame dividindo o número de células não vazias pelo total de células e imprima o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)