1. Learn
  2. /
  3. कोर्स
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

अभ्यास

データを結合しましょう

これから実行するモデルの特徴量は timbre データセットに含まれていますが、目的変数である「年」は track_metadata データセットに含まれています。モデルを実行する前に、この2つのデータセットを結合する必要があります。今回は2つのデータセットの行が1対1で対応しているため、内部結合を使います。

もう1つ、データの前処理が必要です。year 列は整数型ですが、Spark のモデリング関数は実数型を必要とします。year 列を numeric 型に変換しましょう。

निर्देश

100 XP

Spark への接続は spark_conn として作成済みです。Spark に格納されたトラックのメタデータとティンバーデータに紐付けられたティブルは、それぞれ track_metadata_tbl と timbre_tbl として定義されています。

  • track_id 列をキーとして、トラックのメタデータとティンバーデータを内部結合します。
  • year 列を numeric 型に変換します。