BaşlayınÜcretsiz başlayın

Aynı olasılık dağılımından örnekleme

ABD Nüfus Sayımı gibi birçok kurum, özel vatandaşlar hakkında topladıkları verilerin örneklerini kamuya açıklar. Bu veri kümeleri önce çeşitli tekniklerle anonimleştirilir ve ardından hesaplamalara imkân vermek için %1 ila %5’lik çok küçük bir kısım yayımlanır. Örnekleme, verinin istatistiksel özelliklerini korumasıyla bilinir; böylece insanlar altta yatan popülasyonu inceleyip anlayabilir.

Bu egzersizde, IBM İK veri kümesinin department sütununu, orijinal veri kümesinin dağılımlarından örnekleme yaparak anonimleştireceksin.

Veri kümesi hr olarak yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Egzersiz talimatları

  • department sütunundaki her bir benzersiz değerin göreli sıklıklarını elde et.
  • Olasılıkları counts içinden çıkar ve distributions adlı bir değişkende sakla.
  • Daha önce hesaplanan olasılık dağılımlarından örnekle. Örneklemenin boyutu, hr veri kümesinin boyutuyla aynı olmalı.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Kodu Düzenle ve Çalıştır