1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

無効な行を確認する

結合を使って行のフィルタリングには成功しましたが、無効なデータを確認したい場合もあります。こうしたデータは、後で処理したり、データソースのトラブルシューティングに活用できます。

2 つの DataFrame の差分を見つけて、無効な行を保存したいとします。

spark オブジェクトは定義済みで、pyspark.sql.functions は F としてインポートされています。元の DataFrame split_df と、結合後の DataFrame joined_df は前の状態のまま利用できます。

指示

100 XP
  • 各 DataFrame の行数を確認します。
  • 無効な行のみを含む DataFrame を作成します。
  • 新しい DataFrame の件数が想定どおりか検証します。
  • 削除されたフォルダー行の重複なし件数を求めます。