1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ Spark SQL 入門

Connected

演習

データにラベルを付ける

データフレーム df があり、列は endword: string、features: vector、outvec: vector です。endword が "him" に等しい行を選択し、整数値 1 を持つ列 label を追加してください。次に、union 演算を使って、endword が him に等しくない同数の行を追加し、これらの追加行には label = 0 を持たせます。

補足として、SQL での「等しくない」比較は <> を使います。

指示

100 XP
  • lit 関数をインポートします。
  • endword が 'him' の行を選び、値 1 の整数列 label を追加します。
  • endword が 'him' ではない行を選び、値 0 の整数列 label を追加します。
  • 正例の数と同じ数の負例を用いて、これら 2 つの集合を union します。