Aynı olasılık dağılımından örnekleme
ABD Nüfus Sayımı gibi birçok kurum, özel vatandaşlar hakkında topladıkları verilerin örneklerini kamuya açıklar. Bu veri kümeleri önce çeşitli tekniklerle anonimleştirilir ve ardından hesaplamalara imkân vermek için %1 ila %5’lik çok küçük bir kısım yayımlanır. Örnekleme, verinin istatistiksel özelliklerini korumasıyla bilinir; böylece insanlar altta yatan popülasyonu inceleyip anlayabilir.
Bu egzersizde, IBM İK veri kümesinin department sütununu, orijinal veri kümesinin dağılımlarından örnekleme yaparak anonimleştireceksin.
Veri kümesi hr olarak yüklendi.
Bu egzersiz, kursun bir parçasıdır
Python ile Veri Gizliliği ve Anonimleştirme
Egzersiz talimatları
departmentsütunundaki her bir benzersiz değerin göreli sıklıklarını elde et.- Olasılıkları
countsiçinden çıkar vedistributionsadlı bir değişkende sakla. - Daha önce hesaplanan olasılık dağılımlarından örnekle. Örneklemenin boyutu,
hrveri kümesinin boyutuyla aynı olmalı.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())