1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

データの整合性は大丈夫?

新しいデータが banking DataFrame にマージされ、inv_amount 列にある投資額が、4つのファンド A、B、C、D にどのように配分されているかの詳細が追加されました。

さらに、顧客の年齢と誕生日が、それぞれ age 列と birth_date 列に保存されています。

年齢層ごとの投資傾向を理解したいと考えていますが、その前に分析対象のデータが正しいかを確認したいです。そこで、inv_amount と age の値を、各ファンドへの投資額および顧客の誕生日と突き合わせて、クロスフィールド検証を行います。 pandas と datetime はそれぞれ pd と dt としてインポート済みです。

指示1 / 2

undefined XP
  • 1
    • banking の fund_columns に含まれる各行の合計が、inv_amount 列と等しい行を見つけてください。
    • inv_amount が整合している banking の行を consistent_inv に、整合していない行を inconsistent_inv に保存します。
  • 2
    • 今日の日付を today に保存し、顧客の年齢を手計算して ages_manual に保存してください。
    • banking のうち、age 列が ages_manual と等しい行を見つけ、banking を consistent_ages と inconsistent_ages に分けてください。