MulaiMulai sekarang secara gratis

Memverifikasi Pemuatan Data

Misalkan setiap bulan Anda menerima sebuah berkas baru. Anda sudah memperkirakan jumlah rekaman dan kolom tertentu. Pada latihan ini, kita akan membuat sebuah fungsi yang akan memvalidasi berkas yang dimuat.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat fungsi validasi data check_load() dengan parameter df sebuah dataframe, num_records sebagai jumlah rekaman, dan num_columns sebagai jumlah kolom.
  • Dengan menggunakan num_records, buat pengecekan apakah dataframe masukan df memiliki jumlah yang sama dengan count().
  • Bandingkan jumlah kolom yang dimiliki dataframe masukan dengan num_columns menggunakan len() pada columns.
  • Jika keduanya mengembalikan True, maka cetak Validation Passed

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def ____(____, ____, ____):
  # Takes a dataframe and compares record and column counts to input
  # Message to return if the critera below aren't met
  message = 'Validation Failed'
  # Check number of records
  if num_records == df.____():
    # Check number of columns
    if num_columns == ____(df.____):
      # Success message
      message = ____
  return message

# Print the data validation message
print(check_load(df, 5000, 74))
Edit dan Jalankan Kode