1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

演習

外れ値の検出

データを正しく前処理するうえで非常に重要なのが、外れ値の検出です。Machine Learning の面接では、外れ値をどのように見つけて処理するかがよく問われます。外れ値を検出する簡単な方法のひとつは、グラフで可視化することです。

欠損値を見つけて補完したら、次は外れ値を見つけて対処法を考えることが、もうひとつ必要な前処理ステップになります。

外れ値を可視化できるパッケージはいくつもありますが、この演習では seaborn を使って、loan_data の特定の列について単変量と多変量のボックスプロットを作成します。

必要なパッケージはすべてインポート済みです。

現在のパイプラインの進捗はどこでしょうか?

Machine learning pipeline

指示1 / 3

undefined XP
  • 1
    • loan_data の特徴量 Annual Income を使って単変量のボックスプロットを作成します。
    • loan_data の特徴量 Annual Income を使って、Loan Status で条件付けた多変量のボックスプロットを作成します。
  • 2
    • loan_data の特徴量 Monthly Debt を使って単変量のボックスプロットを作成します。
    • loan_data の特徴量 Monthly Debt を使って、Loan Status で条件付けた多変量のボックスプロットを作成します。
  • 3
    • loan_data の特徴量 Years of Credit History を使って単変量のボックスプロットを作成します。
    • loan_data の特徴量 Years of Credit History を使って、Loan Status で条件付けた多変量のボックスプロットを作成します。