MulaiMulai sekarang secara gratis

Melakukan validasi data

Sekarang setelah Anda mendefinisikan skema, saatnya melakukan validasi data. Pada latihan ini, Anda akan membuat aturan validasi untuk memastikan kualitas data dan memeriksa masalah umum seperti duplikasi dan nilai null.

table_schema dari latihan sebelumnya sudah dimuat untuk Anda, bersama dengan DataFrame ts dan pustaka pointblank.

Latihan ini adalah bagian dari kursus

Merancang Pipeline Peramalan untuk Produksi

Lihat Kursus

Petunjuk latihan

  • Definisikan validasi menggunakan metode yang tepat dan berikan DataFrame ts.
  • Atur aturan validasi dengan table_schema dan periksa duplikasi.
  • Cetak laporan validasi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Edit dan Jalankan Kode