Memverifikasi Pemuatan Data
Misalkan setiap bulan Anda menerima sebuah berkas baru. Anda sudah memperkirakan jumlah rekaman dan kolom tertentu. Pada latihan ini, kita akan membuat sebuah fungsi yang akan memvalidasi berkas yang dimuat.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Buat fungsi validasi data
check_load()dengan parameterdfsebuah dataframe,num_recordssebagai jumlah rekaman, dannum_columnssebagai jumlah kolom. - Dengan menggunakan
num_records, buat pengecekan apakah dataframe masukandfmemiliki jumlah yang sama dengancount(). - Bandingkan jumlah kolom yang dimiliki dataframe masukan dengan
num_columnsmenggunakanlen()padacolumns. - Jika keduanya mengembalikan
True, maka cetakValidation Passed
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def ____(____, ____, ____):
# Takes a dataframe and compares record and column counts to input
# Message to return if the critera below aren't met
message = 'Validation Failed'
# Check number of records
if num_records == df.____():
# Check number of columns
if num_columns == ____(df.____):
# Success message
message = ____
return message
# Print the data validation message
print(check_load(df, 5000, 74))