1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

データ読み込みの検証

毎月新しいファイルを受け取るとしましょう。レコード数と列数は想定されています。この演習では、読み込んだファイルを検証する関数を作成します。

指示

100 XP
  • データ検証用の関数 check_load() を作成します。引数は、データフレーム df、レコード数 num_records、列数 num_columns です。
  • num_records を使って、入力データフレーム df の count() が同じ数かどうかをチェックします。
  • 入力データフレームの列数を、columns に対して len() を使って測り、num_columns と比較します。
  • これらのチェックがどちらも True であれば、Validation Passed と出力します。