同じ確率分布からのサンプリング

米国国勢調査のように、多くの組織は一般市民から収集したデータのサンプルを公開しています。これらのデータセットは、まずさまざまな手法で匿名化され、その後、計算ができるように全体の1%〜5%程度のごく一部だけが公開されます。サンプリングはデータの統計的特性を保つことが知られており、母集団の実態を分析・把握するのに役立ちます。

この演習では、IBM HR データセットの department 列を、元のデータセットの分布に基づいてサンプリングすることで匿名化します。

データセットは hr として読み込まれています。