1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで欠損データに対処する

Connected

演習

ダミー値を作成する

列同士の「欠損と欠損」の関係を調べたのと同様に、「欠損と非欠損」の関係を列間で確認することも重要です。これは、データの欠損が生じる要因を見つける助けになります。

BMI vs Serum Insulin

上の図では、Serum Insulin の欠損値が BMI の値域全体に分布していることがわかります。つまり、両者に関係はなさそうだということです。

この演習では、次の演習で上記の散布図を作成できるように、ダミー値を生成する関数を書きます。ダミー値の生成では、乱数を列の値域にスケーリングし、スケーリング係数をかけ、さらに値をシフトする操作を行います。

numpy.random から rand() 関数はインポート済みです。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • 列の最大値から最小値を引いて、列のレンジを計算します。