1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

When / Otherwise

前の要件と似ていますが、今回は有権者の役職に応じて複数の値を付与します。voter_df DataFrame を修正し、役職が Councilmember の投票者には乱数を加算します。Mayor には 2、その他の役職には 0 を設定してください。

voter_df DataFrame は定義済みで利用可能です。pyspark.sql.functions ライブラリは F として利用できます。乱数の生成には F.rand() を使えます。

指示

100 XP
  • 役職が Councilmember の有権者に対して、F.rand() の結果を用いて random_val という列を voter_df に追加します。Mayor には random_val を 2 に設定し、その他の役職は 0 に設定します。
  • いくつかの DataFrame の行を表示し、各句が正しく動作しているか確認します。
  • .filter 句を使って、random_val が 0 の行を見つけます。