Melakukan validasi data
Sekarang setelah Anda mendefinisikan skema, saatnya melakukan validasi data. Pada latihan ini, Anda akan membuat aturan validasi untuk memastikan kualitas data dan memeriksa masalah umum seperti duplikasi dan nilai null.
table_schema dari latihan sebelumnya sudah dimuat untuk Anda, bersama dengan DataFrame ts dan pustaka pointblank.
Latihan ini adalah bagian dari kursus
Merancang Pipeline Peramalan untuk Produksi
Petunjuk latihan
- Definisikan validasi menggunakan metode yang tepat dan berikan DataFrame
ts. - Atur aturan validasi dengan
table_schemadan periksa duplikasi. - Cetak laporan validasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())