1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ財務諸表分析

Connected

演習

パーセンタイルで欠損値を補完する

この演習では、欠損値の補完を引き続き練習します。前の演習と異なり、平均ではなくパーセンタイルを使って補完値を計算します。パーセンタイルを使うと、保守的な補完がしやすくなります。列の欠損値をパーセンタイルで補完する基本的な手順は次のとおりです。

  • 対象の列から欠損値を取り除きます。
  • 欠損を除いた列の数値から、たとえば70パーセンタイルを計算します。
  • どの値が「70パーセンタイルのワースト値」かは、どの列でパーセンタイルを計算するかによって異なります。
    • 例えば、資産額が大きいことは良いことなので、資産が少ないほど悪いと考えます。この場合、資産の「70パーセンタイルのワースト値」は、実際には資産の30パーセンタイルです。
    • 同様に、負債額が大きいことは悪いとみなされます。したがって、負債の「70パーセンタイルのワースト値」は、そのまま負債の70パーセンタイルになります。

pandas はエイリアス pd、NumPy はエイリアス np で読み込まれています。pandas の DataFrame dataset が用意されており、"Total Current Liabilities" 列には一部欠損値が含まれています。

指示1 / 2

undefined XP
    1
    2
  • "company" ごとに、非欠損の70パーセンタイルを用いて "Total Current Liabilities" の欠損値を補完します。
  • "comp_type" ごとに、非欠損の70パーセンタイルを用いて "Total Current Liabilities" の欠損値を補完します。