Matris seyrekliği
Gerçek dünyadaki puanlama verilerinde yaygın bir zorluk, çoğu kullanıcının çoğu öğeyi puanlamamış olması ve çoğu öğenin de yalnızca az sayıda kullanıcı tarafından puanlanmış olmasıdır. Bu da çok boş ya da seyrek bir DataFrame ile sonuçlanır.
Bu egzersizde, movie_lens puanlama verilerinin ne kadar seyrek olduğunu, dolu hücre sayısını sayarak ve bunu tam DataFrame'in boyutuyla karşılaştırarak hesaplayacaksın.
Önceki egzersizlerde kullandığın ve her kullanıcı için bir satır, her film için bir sütun içeren user_ratings_df DataFrame'i senin için yüklendi.
Bu egzersiz
Python ile Öneri Motorları Geliştirme
kursunun bir parçasıdırEgzersiz talimatları
user_ratings_dfiçindeki boş olmayan hücrelerin sayısını say ve sonucusparsity_countolarak kaydet.user_ratings_dfDataFrame'indeki toplam hücre sayısını say vefull_countolarak kaydet.- DataFrame'in seyrekliğini, boş olmayan hücre sayısını toplam hücre sayısına bölerek hesapla ve sonucu yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Count the occupied cells
sparsity_count = user_ratings_df.____().____.____()
# Count all cells
full_count = user_ratings_df.____
# Find the sparsity of the DataFrame
sparsity = ____ / ____
print(sparsity)