1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learning面接対策

Connected

演習

対数変換とべき乗変換

前の演習では、loan_data の学習用データとテスト用データの分布を比較しました。Machine Learning の面接では特に重要で、観測された分布に応じて、特徴量の分布を正規分布に近づけて正規性の仮定を満たすための手法が必要かどうかを判断します。

この演習では、scipy.stats モジュールの対数変換およびべき乗変換を loan_data の Years of Credit History 特徴量に適用し、分布とカーネル密度推定を同時に描画する seaborn の distplot() 関数を使います。

必要なパッケージはすべてインポート済みです。

現在のパイプライン上の位置は次のとおりです。

Machine learning pipeline

指示1 / 3

undefined XP
  • 1
    • loan_data を 'Years of Credit History' でサブセット化し、distplot() を使ってその分布とカーネル密度推定(kde)を描画します。
  • 2
    • Box-Cox 変換を用いて cr_yrs に対数変換を適用し、その分布と kde を描画します。
  • 3
    • 'Years of Credit History' を Box-Cox の平方根(square-root)引数で変換し、その分布と kde を描画します。