Melakukan validasi data
Sekarang setelah Anda mendefinisikan skema, saatnya melakukan validasi data. Pada latihan ini, Anda akan membuat aturan validasi untuk memastikan kualitas data dan memeriksa masalah umum seperti duplikasi dan nilai null.
table_schema dari latihan sebelumnya sudah dimuat untuk Anda, bersama dengan DataFrame ts dan pustaka pointblank.
Latihan ini merupakan bagian dari kursus
Merancang Pipeline Peramalan untuk Produksi
Instruksi latihan
- Definisikan validasi menggunakan metode yang tepat dan berikan DataFrame
ts. - Atur aturan validasi dengan
table_schemadan periksa duplikasi. - Cetak laporan validasi.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())