1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

値のビニング

多くの連続値については、数値列の厳密な値そのものよりも、それが属する区間(ビン)の方が重要になることがあります。これは可視化を行うときや、Machine Learning モデルを簡素化するときに役立ちます。主に、精度が最重要ではない連続変数(例:年齢、身長、賃金)でよく使われます。

ビンは pd.cut(df['column_name'], bins) を使って作成します。ここで bins には、等間隔のビン数を表す整数、またはビンの境界値のリストを指定できます。

指示1 / 2

undefined XP
  • 1

    so_survey_df の ConvertedSalary 列を等間隔の5つのビンに分割し、新しい列 equal_binned に保存してください。

  • 2

    リスト bins の境界を使って ConvertedSalary 列をビニングし、labels を使ってビンにラベルを付けてください。