パイプライン内での前処理

Ames住宅データを正しく処理するために個別に必要な手順を確認しました。ここでは、よりシンプルで簡潔な DictVectorizer の方法を使い、XGBoostRegressor と並べて scikit-learn のパイプラインに組み込みましょう。

sklearn.feature_extraction から DictVectorizer を、sklearn.pipeline から Pipeline をインポートします。
X の LotFrontage 列にある欠損値を 0 で埋めます。
パイプラインの各ステップを完成させます。"ohe_onestep" には DictVectorizer(sparse=False)、"xgb_model" には xgb.XGBRegressor() を指定します。
Pipeline() と steps を使ってパイプラインを作成します。
Pipeline を学習させます。DictVectorizer が理解できる形式に変換するため、X に対して to_dict("records") メソッドを呼び出すのを忘れないでください。

演習