DataFrame の列を変更する

前のステップでは、名前らしくない行をフィルタリングしました。これまでの作業を踏まえて、マネージャーから first_name と last_name の2つの新しい列を作成するよう依頼されました。VOTER_NAME 列をスペース文字で分割し、最後の単語を last_name、それ以外のすべてを first_name として扱います。この演習では .split()、.size()、.getItem() といった新しい関数を使います。.getItem(index) は整数を取り、列内の対応する番号の要素を返します。.split() と .size() は pyspark.sql.functions ライブラリにあります。

なお、これらの操作は常にユースケースにある程度依存します。データがある形式に従っていることは、その形式の細部よりも重要な場合が多いです。データクレンジングは一人だけのために行うことはほとんどなく、定義済みの形式に合わせておくと、後で共有しやすくなります（例：Paul は名前を気にする必要がありません—Mary がすでにデータセットをクレンジング済みです）。

前の演習でフィルタ済みの有権者 DataFrame は voter_df として利用可能です。pyspark.sql.functions ライブラリはエイリアス F で利用できます。

可能な名前のリストを保持する splits という新しい列を追加します。
getItem() メソッドを使って、新しい列 first_name を作成します。
splits リストの最後の要素を取得し、last_name 列を作成します。
splits 列を削除し、更新された voter_df を表示します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習