Memverifikasi Tipe Data
Di era data, kita memiliki akses ke lebih banyak atribut daripada sebelumnya. Untuk menanganinya, kita akan membangun banyak otomatisasi, tetapi setidaknya diperlukan bahwa tipe data setiap atribut sudah benar. Pada latihan ini, kita akan memvalidasi sebuah kamus berisi atribut dan tipe datanya untuk melihat apakah sudah tepat. Kamus ini disimpan dalam variabel validation_dict dan tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Gunakan
dfuntuk membuat daftar tuple atribut dan tipe data dengandtypesbernamaactual_dtypes_list. - Iterasikan
actual_dtypes_list, lalu periksa apakah nama kolom tersebut ada dalam kamus tipe data yang diharapkanvalidation_dict. - Untuk key yang ada di kamus, periksa tipe datanya dan cetak yang sesuai.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# create list of actual dtypes to check
actual_dtypes_list = df.____
print(actual_dtypes_list)
# Iterate through the list of actual dtypes tuples
for attribute_tuple in ____:
# Check if column name is dictionary of expected dtypes
col_name = attribute_tuple[____]
if col_name in ____:
# Compare attribute types
col_type = attribute_tuple[____]
if col_type == validation_dict[____]:
print(col_name + ' has expected dtype.')