Veri dağılımını keşfet

Bir veri kümesini gerçeğe çok yakın bir şekilde örnekleyerek anonimleştirmek istediğimizde, veriye dair alan ve istatistik bilgisine ihtiyaç duyarız. Gördüğün gibi, ilgi duyulan sütunun olasılık dağılımını bulmak kritik önemdedir.

Bu egzersizde, IBM İK veri kümesinin basitleştirilmiş bir sürümündeki business_travel sütununu keşfedeceksin.

DataFrame hr olarak ve numpy np olarak içe aktarılmıştır. Önceki bölümde söylendiği gibi, bu bölüm ve kursun geri kalanında pandas da pd olarak içe aktarılmıştır.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Print the absolute frequencies of each unique value
print(____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

AvançadoNível de habilidade

4.9+

Kursa Ücretsiz Başla

Veri bastırma, maskeleme, sentetik veri üretimi ve genelleştirme gibi anonimleştirme tekniklerini uygulamaya hazır ol. Bu bölümde, hassas ve hassas olmayan kişisel olarak tanımlanabilir bilgiler (PII), yarı tanımlayıcılar (quasi-identifier) ve GDPR’ın temelleri arasında nasıl ayrım yapacağını öğreneceksin. Ayrıca, bu en iyi uygulamalara uyulmadığında nelerin ters gidebileceğine dair gerçek hayattan örneklerle karşılaşacaksın.

Exercise 1: Özel olan nedir ve neden önemseriz?Exercise 2: Gizlilik güçtür Exercise 3: Hassas mı, hassas olmayan mı?Exercise 4: Hassas özniteliklerin bastırılması Exercise 5: Faker ile veri maskeleme ve veri üretimi Exercise 6: Hassas PII’yi maskeleme Exercise 7: faker ile isimleri kaldırma Exercise 8: Veri genelleştirme ile anonimleştirme Exercise 9: Genelleştirme ile kimlik tespit riskini azaltma Exercise 10: Veri toplulaştırma ve veri genelleştirme Exercise 11: Beyaz Saray maaşlarında üst ve alt kodlama

Sütunların olasılık dağılımını izleyen veri kümelerinden örnekleme yaparak veriyi nasıl anonimleştireceğini keşfet. Ardından, bağlama veya yeniden tanımlama saldırılarını önlemek için k-anonymity gizlilik modelini nasıl uygulayacağını ve kategorik değişkenlerde veri genelleştirmesi yapmak için hiyerarşileri nasıl kullanacağını öğreneceksin.

Exercise 1: Kategorik verileri anonimleştirme Exercise 2: Veri dağılımını keşfet

Geçerli egzersiz

Exercise 3: Aynı olasılık dağılımından örnekleme Exercise 4: Sürekli verileri anonimleştirme Exercise 5: Farklı dağılımlar Exercise 6: En iyi sürekli dağılımdan örnekleme Exercise 7: K-anonimliğe giriş Exercise 8: Gizlilik öznitelikleri Exercise 9: Aralıklara genelleme Exercise 10: Hiyerarşiler kullanarak veriyi genelleştirme Exercise 11: Kategorik veriler için hiyerarşileri kullanma Exercise 12: Bir veri kümesini k-anonimleştirme

Apple, Google ve Uber gibi büyük teknoloji şirketlerinin kullandığı diferansiyel gizlilik hakkında bilgi edin. Bu bölümde, özel histogramlar üreterek ve veride özel ortalamalar hesaplayarak veri keşfi yapacaksın. Ayrıca, işletmelerin verilerinin faydasını artırmasına olanak tanıyan diferansiyel gizlilikli Machine Learning modelleri oluşturacaksın.

Exercise 1: Diferansiyel gizliliğe giriş Exercise 2: Epsilon (ϵ): sihirli sayı Exercise 3: Diferansiyel gizlilikle histogramlar Exercise 4: Gizlilik bütçeleri Exercise 5: Gizlilik bütçelerini kullanma Exercise 6: Hiç bütçe kalmadığında Exercise 7: Gizlilik bütçesi muhasebecisiyle veriyi keşfetme Exercise 8: Farklılaştırılmış gizliliğe sahip Machine Learning modelleri Exercise 9: Farklılaştırılmış gizliliğe sahip bir sınıflandırıcı oluştur Exercise 10: Maaş tahmini Exercise 11: Farklılaştırmalı gizliliğe sahip kümeleme modelleri Exercise 12: Veriyi ön işleme Exercise 13: Müşterileri segmentlere ayırma

Bu son bölümde, çok sütunlu büyük veri kümelerini anonimleştirmek için temel bileşen analizi (PCA) gibi boyut indirgeme yöntemlerini nasıl uygulayacağını öğreneceksin. Ardından, gerçekçi ve tutarlı veri kümeleri üretmek için Faker’ı ve normal dağılımı izleyen sentetik veri kümeleri oluşturmak için scikit-learn’ü kullanacaksın. Son olarak, birden fazla tekniği birleştirerek veri kümelerini güvenle kamuya açarken bu kursta öğrendiklerinin tümünü bir araya getireceksin.

Exercise 1: Anonimleştirme için PCA Exercise 2: Yüksek boyutlu verilerin anonimleştirilmesi Exercise 3: PCA ile veri maskeleme Exercise 4: Faker ile gerçekçi veri kümeleri oluşturma Exercise 5: Tutarlı sentetik veri kümesi Exercise 6: Aynı olasılıksal dağılıma sahip veri kümeleri Exercise 7: scikit-learn kullanarak sentetik veri kümeleri oluşturma Exercise 8: Sınıflandırma için veri kümeleri oluşturma Exercise 9: Kümeleme için veri kümeleri oluşturma Exercise 10: Veri kümelerini güvenle kamuya aç Exercise 11: Bir veri kümesini keşfetme ve takma adlandırma Exercise 12: Verilerin güvenli yayımlanması için çalışan verilerini hazırlama Exercise 13: Harika iş!