1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

結合で行を検証する

無効なエントリを取り除く方法として、結合を使ってフィルタリングする手法があります。与えられた valid_folders_df という DataFrame に基づき、フォルダ名が想定どおりかを検証してください。DataFrame split_df は、前の演習で作成した分割済みの列を持つ状態のままです。

spark オブジェクトが利用可能で、pyspark.sql.functions は F としてインポート済みです。

指示

100 XP
  • valid_folders_df DataFrame の _c0 列名を folder にリネームします。
  • split_df の行数をカウントします。
  • フォルダ名で 2 つの DataFrame を結合し、結果の DataFrame を joined_df と名付けます。小さいほうの DataFrame を必ずブロードキャストしてください。
  • 残った行数を確認し、比較します。