1. Learn
  2. /
  3. 课程
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

道练习

ランダムフォレスト:モデリング

勾配ブースティング木と同様に、ランダムフォレストもアンサンブルモデルの一種です。つまり、多数の単純なモデル(ここでも決定木)を組み合わせて、より優れた1つのモデルを構築します。同じモデルを繰り返し実行するのではなく、ランダムフォレストはデータのランダムなサブセットと特徴量のランダムなサブセットをそれぞれ使った多数の独立したモデルを並列に実行します。そして最終的な予測は、各モデルの結果を集約することで行われます。

sparklyr のランダムフォレスト関数は ml_random_forest() です。使い方は ml_gradient_boosted_trees() とまったく同じです(構文の確認は、この章の最初の演習を参照してください)。

说明

100 XP

Spark の接続は spark_conn として作成済みです。Spark に保存された結合・フィルタリング済みのトラックメタデータとティンバーデータを参照するティブルは、track_data_to_model_tbl として事前に定義されています。

  • 今度はランダムフォレストモデルを使って、リリース年の予測分析を繰り返しましょう。
    • track_data_to_model_tbl から timbre 列を取得し、結果を feature_colnames に代入します。
    • reformulate() を使ってモデルの式を作成します。
    • ランダムフォレストモデルを実行し、結果を random_forest_model に代入します。