1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

お金の流れを追う

この演習では、banking DataFrame の別バージョンを使います。ここでは cust_id 列と acct_amount 列の両方に欠損値があります。

銀行が保有するユニーク顧客数や、顧客が保有する平均金額などを分析したいと考えています。cust_id が欠損している行は役に立たないこと、そして平均的に acct_amount は inv_amount の5倍程度であることを知っています。

この演習では、cust_id が欠損している banking の行を削除し、ドメイン知識を使って acct_amount の欠損値を補完します。

指示

100 XP
  • banking の cust_id 列の欠損値を .dropna() で削除し、結果を banking_fullid に保存します。
  • banking_fullid について、inv_amount * 5 を用いて推定口座額を計算し、結果を acct_imp に代入します。
  • .fillna() を使って、banking_fullid の acct_amount の欠損値を、新しく作成した acct_imp で補完します。