Mulai sekarangMulai gratis

Melakukan validasi data

Sekarang setelah Anda mendefinisikan skema, saatnya melakukan validasi data. Pada latihan ini, Anda akan membuat aturan validasi untuk memastikan kualitas data dan memeriksa masalah umum seperti duplikasi dan nilai null.

table_schema dari latihan sebelumnya sudah dimuat untuk Anda, bersama dengan DataFrame ts dan pustaka pointblank.

Latihan ini merupakan bagian dari kursus

Merancang Pipeline Peramalan untuk Produksi

Lihat Kursus

Instruksi latihan

  • Definisikan validasi menggunakan metode yang tepat dan berikan DataFrame ts.
  • Atur aturan validasi dengan table_schema dan periksa duplikasi.
  • Cetak laporan validasi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Edit dan Jalankan Kode